spark
文章平均质量分 95
kayden888
这个作者很懒,什么都没留下…
展开
-
8.分布式计算平台Spark:StructStreaming
分布式计算平台Spark:StructStreaming 一、重点 SparkStreaming基本原理 本质还是SparkCore:基于RDD的离线批处理 原理:划分微小时间单位的批处理 ReceiverTask:将源源不断的数据流划分Block:默认200ms 将每个Block的数据缓存在Executor的内存中 将位置反馈给Driver Driver等到Batch时间:1s 区别:Core按照触发函数来触发job的,按照时间来触发job的 DStream:离散的数据流原创 2021-03-20 22:09:27 · 215 阅读 · 0 评论 -
6.分布式计算平台Spark:离线综合案例
分布式计算平台Spark:离线综合案例 一、重点 SparkSQL使用 开发接口 DSL:使用函数来对表进行处理,类似于RDD的编程,表的体现:DF、DS SQL语法函数:select、where、groupBy、orderBy、limit、agg RDD的函数:map/filter/flatMap SQL:使用SQL语句来实现对表的处理,类似于Hive的编程,表的体现:DF/DS注册成视图、Hive表 step1:将数据集注册为视图 step2:通过SQL语句进行处理 UDF函原创 2021-03-20 22:08:13 · 286 阅读 · 0 评论 -
5.分布式计算平台Spark:SQL(二)
分布式计算平台Spark:SQL(二) 一、重点 SparkCore 数据源 Hadoop系列的数据源:Spark是调用了Hadoop的类来实现 InputFormat:sparkContext.newAPIHadoopRDD(输入类,K,V) TableInputFormat 封装了:表的对象【定义传递了表名】、Scan对象+Filter【根据查询条件】 可以自定义scan对象,传递 对表执行了scan操作,读取到所有的RowKey的数据【ResultScanner】 将所有Row原创 2021-03-20 22:07:41 · 119 阅读 · 0 评论 -
4.分布式计算平台Spark:SQL(一)
分布式计算平台Spark:SQL(一) 一、重点 Spark中RDD的常用函数 分区操作函数:mapPartitions、foreachPartition 功能:与map和foreach基本功能一致,这两个函数是对分区进行操作的 应用:对RDD数据处理时,需要构建资源时 重分区函数:repartition、coalesce 功能:调节RDD分区的个数 应用:repartition实现调大、coalesce降低分区个数 聚合函数:reduce/fold/aggregate 分布式聚合原创 2021-03-20 22:07:06 · 152 阅读 · 0 评论 -
3.分布式计算平台Spark:Core(二)
分布式计算平台Spark:Core(二) 一、重点 Spark集群环境 开发流程:SparkCore、SparkSQL、SparkStreaming step1:在IDEA中开发代码 基于本地模式测试代码逻辑 step2:打成jar放入HDFS 为什么要放入HDFS存储 需要实现在任何一台机器提交代码,都可以读取到对应的jar包 step3:通过调度工具来进行自动化调度运行 集群环境 Standalone YARN 提交程序到集群 spark-submit 用法原创 2021-03-20 22:06:34 · 111 阅读 · 0 评论