大数据
文章平均质量分 66
McGrady_Durant
天空越黑,星星越亮。博客当笔记
展开
-
Kafka
kafka原创 2022-10-19 18:30:38 · 511 阅读 · 0 评论 -
get_json_object
原文链接:https://blog.csdn.net/qq_34105362/article/details/80454697get_json_object说明:第一个参数填写json对象变量,第二个参数使用$表示json变量标识,然后用 . 或 [] 读取对象或数组;如果输入的json字符串无效,那么返回NULL。每次只能返回一个数据项。举例:data 为 test表中的字段,数据结构如下:data ={ "store": { "fruit":[{"原创 2021-10-19 14:16:59 · 447 阅读 · 0 评论 -
Kafka生产者 之 数据可靠性保证
为保证producer发送的数据,能可靠的发送到指定的topic,topic的每个partition收到producer发送的数据后,都需要向producer发送ack(acknowledgement确认收到),如果producer收到ack,就会进行下一轮的发送,否则重新发送数据。ack应答机制对于某些不太重要的数据,对数据的可靠性要求不是很高,能够容忍数据的少量丢失,所以没必要等ISR中的follower全部接收成功。所以Kafka为用户提供了三种可靠性级别,用户根据对可靠性和延迟的要求进行权衡,原创 2021-08-31 23:16:18 · 138 阅读 · 0 评论 -
Flink: 窗口计算
文章目录Event-time WindowEvent TimeWatermark-水位线迟到数据Event-time WindowEvent TimeFlink在流计算的过程中,支持多种时间概念。Event Time / Processing Time / Ingestion TimeProcessing Time:处理时间是指执行相应操作的机器的系统时间。Event Time:事件时间是每个事件在其生产设备上发生的时间。处理乱序数据(数据的处理和数据的生成顺序乱啦)Ingestion:摄取原创 2021-08-19 20:19:36 · 590 阅读 · 0 评论 -
Spark基础篇
文章目录Spark的介绍1、Spark定义2、Spark VS MapReduce3、Spark内置模块二、安装Spark1. Spark相关地址1.官网地址2.文档查看地址3.下载地址2. 重要角色2.1 Driver(驱动器)2.2 Executor(执行器)3. Standalone模式spark两种测试方式:4. JobHistoryServer配置1. 修改spark-default.conf.template名称, 修改spark-default.conf文件,开启Log2. 修改spark-e原创 2021-08-08 18:07:26 · 413 阅读 · 1 评论 -
Spark RDD
一、Spark RDD概述Resilient Distributed Datasethttp://spark.apache.org/docs/latest/rdd-programming-guide.html二、 RDD编程1、编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系统原创 2021-08-08 23:09:12 · 484 阅读 · 2 评论 -
Spark SQL
文章目录一、概述搭建环境windows安装Scala二、使用步骤1.引入库2.读入数据总结一、概述1.Scala是一门多范式的静态类型编程语言,Scala支持面向对象和函数式编程2.Scala源代码(.scala)会被编译成java字节码(.class),然后运行在JVM之上,并可以调用现有的Java类库,实现两种语言的无缝对接搭建环境windows安装Scala前提要求: 安装JDK1.8,并且配置环境变量在c盘下创建一个scala文件夹双击scala-2.11.12.msi安装包原创 2021-08-10 23:26:23 · 1231 阅读 · 2 评论 -
Driver和Executor及架构
Driver(驱动器): 用来创建SparkContext、创建RDD,执行开发程序中的main方法的进程,以及进行RDD的转换和执行。主要负责:1)把用户程序转为job2)跟踪Executor的运行状况3)为执行器(Executor)节点调度任务(task)4)UI展示应用运行状况Executor(执行器): 主要负责行动任务(互相独立),伴随着Spark启动而启动。若发生Excutor故障,Spark 应用也可以继续执行,会将出错节点上的任务调度到其他Executor节点上继续运行原创 2021-08-11 21:34:48 · 561 阅读 · 0 评论 -
Spark RDD特点
RDD: resilient distributed dataset弹性分布式数据集*就是一个数据集合*分布式的: rdd执行并行计算*弹性:通过算子可以完成对RDD的转换处理RDD的特点1.不可变: RDD一旦生成,就不会再改变;根据需要可以做转换生成新的RDD2分区: RDD是并行计算。rdd本身自带的有分区计算的时候会通过一个compute函数得到每个分区的数据。如果RDD是通过已有的文件系统构建,则compute函数是读取指定文件系统中的数据,如果RDD是通过其他RDD转换而来,则c原创 2021-08-11 21:37:10 · 2019 阅读 · 0 评论 -
RDD 算子
对RDD操作,可以通过spark提供的算子完成在spark提供的对RDD操作的算子中,分成了两类:**转换算子(transfermation): ** 从-一个RDD,经过算子处理转换成另外一个RDD。行动算子(Action): 从一个RDD,经过算子处理,会生成一个scala对象。转换算子是懒加载模式,只有遇到了行动算子,转换算子才会真正执行RDD转换(Transformations)算子转换算子(transfermation) 分成了两部分:1.对值(value)进行操作的算子2.对原创 2021-08-11 21:39:33 · 1451 阅读 · 0 评论 -
Spark面试总结(1)
1.spark中的RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有原创 2021-08-11 23:32:59 · 587 阅读 · 0 评论 -
Spark Streaming
文章目录一 、Spark Streaming概述二、DStream入门开发步骤1. 添加依赖2. 编写代码3. kafka当数据源配置三、DStream的无状态和有状态转化1、无状态转化2、有状态转化操作四、DStream输出方法一 、Spark Streaming概述Spark Streaming称之为微批处理,无状态计算.Discretized Stream(简称:DStream)是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark原语操作后的结果数据流。在内部实现上原创 2021-08-12 22:46:56 · 155 阅读 · 0 评论 -
Spark Shuffle 机制
说明:Spark是目前大数据中非常流行的运算框架,Spark的Shuffle机制是完成运算最重要的一环,面试时经常会被问到. 在Spark中,Shuffle分为map阶段和reduce阶段,也可称之为shuffle write和shuffle read阶段,Spark在1.1以前的版本一直是采用Hash Shuffle的实现的方式,到1.1版本时参考Hadoop MapReduce的实现开始引入Sort Shuf...转载 2021-08-12 22:58:20 · 342 阅读 · 0 评论 -
高阶函数(列举)
scala自带高阶函数概述:可以接收一个函数的函数就是高阶函数1.map介绍:将集合中的每一个元素通过指定功能(函数)映射(转换)成新的结果集map就是将list集合中的每个元素拿出来,然后根据你自己提供的 算法去计算处理,然后返回你需要的数据,可以是数组、集合、元组等2.flatten介绍:flat即压扁,压平,扁平化。效果就是将集合中的每个元素的子元素映射到某个函数并返回新的集合flatten是将list中的多个集合进行元素合并(必须都是集合)集合中的元素必须是同一类型的数据3.flat原创 2021-08-12 23:55:52 · 170 阅读 · 0 评论 -
伴生对象、
如果类和object在一个scala文件中,则称为object User 是class User的伴生对象class User{ }//Scala中伴生对象采用object关键字声明,伴生对象中的全是”静态“内容,可以通过伴生对象名称直接调用//伴生对象对应的类称之为伴生类,伴生对象的名称应该和伴生类名一致//伴生对象中的属性和方法都可以伴生对象(类名)直接调用访问//从语法角度来讲,所谓的伴生对象其实就是类的静态方法和成员的集合object User{ //伴生对象 }原创 2021-08-12 23:57:30 · 163 阅读 · 0 评论 -
隐式转换、
隐式转换函数是以implicit关键字声明的带有单个参数的函数。这种函数将会自动应用,将值从一种类型转换为另一种类型。应用场景在scala语言中,隐式转换一般用于类型的隐式调用,亦或者是某个方法内的局部变量,想要让另一个方法进行直接调用,那么需要导入implicit关键字,进行隐式的转换操作,同时,在Spark Sql中,这种隐式转换大量的应用到了我们的DSL风格语法中,并且在Spark2.0版本以后,DataSet里面如果进行转换RDD或者DF的时候,那么都需要导入必要的隐式转换操作。...原创 2021-08-12 23:59:06 · 136 阅读 · 0 评论 -
闭包&柯里化
一个函数把外部的那些不属于自己的对象也包含(闭合)进来。通俗的来说就是局部变量当全局变量来使用!!!也就是一个函数的返回值 也是一个函数柯里化定义:柯里化指的是将原来接受两个参数的函数变成新的接受一个参数的函数的过程。新的函数返回一个以原有的第二个参数作为参数的函数...原创 2021-08-12 23:59:50 · 192 阅读 · 0 评论 -
hdfs进入安全模式,解除后 启动namenode都会做什么事?
NameNode启动,加载最新的fsimage恢复数据,并加载未合并的editslog_inprogress,进一步恢复数据。— NN管理内存数据完整。等待接受DataNode的心跳 HeartBeatDN的本节点地址 健康状态 磁盘容量 剩余容量 版本号。等待接受DataNode的块报告 Block Report,判断是否满足最小副本因子(默认值1 dfs.namenode.replication.min),达到了, 则认为当前Block是安全的,完整的。DN的本节点的内全部Block的信息: .原创 2021-08-13 01:00:36 · 172 阅读 · 0 评论 -
Flink安装
Flink安装1. 准备工作JDK安装完成(保证JDK版本:1.8+)Hadoop安装完成并且可以正常运行2. Flink安装1. Flink官网下载安装包链接: https://flink.apache.org/downloads.html.2. 把安装包传输到Linux系统中的/opt/install目录下3. 通过tar -zxvf命令完成解压tar -zxvf flink-1.10.0-bin-scala_2.11.tgzflink的目录结构[root@flin原创 2021-08-15 22:36:17 · 332 阅读 · 0 评论 -
Flink(一):部署及运行架构
文章目录Flink简介前言什么是 FlinkSpark 对比 FlinkFlink应用场景环境安装快速入门编程模型代码程序部署Flink运行架构Tasks and Operator ChainsJob Managers, Task Managers, ClientsTask Slots and Resources(难点)State BackendsCheckpoint/SavepointsFlink简介前言2006年2月诞生的Hadoop中的MapReduce,2014年9月份诞生的Storm以原创 2021-08-15 23:31:20 · 786 阅读 · 0 评论 -
Flink(二):DataStream API及状态管理
文章目录Stream(DataStream API)DataSource:数据源File-basedSocket-basedRead from Apache Kafka算子datasink:数据输出Stream(DataStream API)参考:https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/datastream_api.htmlDataSource:数据源File-based读取分布式文件系统HDFS添加原创 2021-08-16 23:18:22 · 499 阅读 · 0 评论 -
Flink:窗口
文章目录窗口计算概述整体的程序结构窗口的切分Tumbling Windows:滚动窗口Sliding Windows:滑动窗口Session Windows:会话窗口Global Window:全局窗口窗口代码-窗口分配器TumblingWindowsAssignerSlidingWindowsAssignerSessionWindowsAssignerGlobalWindowAssigner窗口代码-窗口计算函数reduceFunctionprocessWindowFunction既要高效计算又要元数据信原创 2021-08-18 21:31:38 · 605 阅读 · 0 评论