spark
文章平均质量分 95
kayden888
这个作者很懒,什么都没留下…
展开
-
8.分布式计算平台Spark:StructStreaming
分布式计算平台Spark:StructStreaming一、重点SparkStreaming基本原理本质还是SparkCore:基于RDD的离线批处理原理:划分微小时间单位的批处理ReceiverTask:将源源不断的数据流划分Block:默认200ms将每个Block的数据缓存在Executor的内存中将位置反馈给DriverDriver等到Batch时间:1s区别:Core按照触发函数来触发job的,按照时间来触发job的DStream:离散的数据流原创 2021-03-20 22:09:27 · 212 阅读 · 0 评论 -
6.分布式计算平台Spark:离线综合案例
分布式计算平台Spark:离线综合案例一、重点SparkSQL使用开发接口DSL:使用函数来对表进行处理,类似于RDD的编程,表的体现:DF、DSSQL语法函数:select、where、groupBy、orderBy、limit、aggRDD的函数:map/filter/flatMapSQL:使用SQL语句来实现对表的处理,类似于Hive的编程,表的体现:DF/DS注册成视图、Hive表step1:将数据集注册为视图step2:通过SQL语句进行处理UDF函原创 2021-03-20 22:08:13 · 277 阅读 · 0 评论 -
5.分布式计算平台Spark:SQL(二)
分布式计算平台Spark:SQL(二)一、重点SparkCore数据源Hadoop系列的数据源:Spark是调用了Hadoop的类来实现InputFormat:sparkContext.newAPIHadoopRDD(输入类,K,V)TableInputFormat封装了:表的对象【定义传递了表名】、Scan对象+Filter【根据查询条件】可以自定义scan对象,传递对表执行了scan操作,读取到所有的RowKey的数据【ResultScanner】将所有Row原创 2021-03-20 22:07:41 · 111 阅读 · 0 评论 -
4.分布式计算平台Spark:SQL(一)
分布式计算平台Spark:SQL(一)一、重点Spark中RDD的常用函数分区操作函数:mapPartitions、foreachPartition功能:与map和foreach基本功能一致,这两个函数是对分区进行操作的应用:对RDD数据处理时,需要构建资源时重分区函数:repartition、coalesce功能:调节RDD分区的个数应用:repartition实现调大、coalesce降低分区个数聚合函数:reduce/fold/aggregate分布式聚合原创 2021-03-20 22:07:06 · 152 阅读 · 0 评论 -
3.分布式计算平台Spark:Core(二)
分布式计算平台Spark:Core(二)一、重点Spark集群环境开发流程:SparkCore、SparkSQL、SparkStreamingstep1:在IDEA中开发代码基于本地模式测试代码逻辑step2:打成jar放入HDFS为什么要放入HDFS存储需要实现在任何一台机器提交代码,都可以读取到对应的jar包step3:通过调度工具来进行自动化调度运行集群环境StandaloneYARN提交程序到集群spark-submit用法原创 2021-03-20 22:06:34 · 111 阅读 · 0 评论