Spark
文章平均质量分 78
ICanDoItHaHa
这个作者很懒,什么都没留下…
展开
-
SparkSql: 多数据集抽象类型对比分析及使用场景
多数据集抽象类型对比spark抽象数据集列表1.相同点2.区别点3.应用场景 spark抽象数据集列表 RDD 弹性分布式数据集 DataFrame 与RDD相似,增加了数据结构scheme描述信息部分。 比RDD更丰富的算子,更有利于提升执行效率、减少数据读取、执行计划优化。 DataSets 集成了RDD强类型和DataFrames结构化的优点,新数据抽象类型,比RDD更丰富的算子,更有利于提升执行效率、减少数据读取、执行计划优化。 1.相同点 1.全都是spark平台下的分布式弹性数据集原创 2021-01-09 16:07:54 · 339 阅读 · 0 评论 -
实时数据项目Kafka之本地模拟
实时数据项目Kafka之本地模拟1.大局准备在集群机器上创建两个文件夹2.数据获取3.数据传输4.数据传输 1.大局准备 在集群机器上创建两个文件夹 一个RealTimeDataReceiver4Shell文件夹,一个RealTimeDW4Shell文件夹 RealTimeDW4Shell负责:1.下载需要的数据文件, 2.把数据文件行读取进行编码传输到url接收器 RealTimeDataReceiver4Shell负责:1.启动java类包,url接收器接收编码的数据然后转发给kafka,2.kafka原创 2020-12-24 21:40:33 · 664 阅读 · 2 评论 -
Spark Core 架构 及相关术语
Spark架构设计 1.架构设计图 2.相关术语 1.RDD (Resilient Distributed DataSet) 弹性分布式数据集,是对数据集在spark存储和计算过程中的一种抽象 是一组只读、可分区的分布式数据集合 一个RDD包含多个分区Partition(类似于MapReduce中的InputSplit),分区是根据一定规则的,将具有相同规则的属性的数据记录放在一起 横向可切分并行计算,以分区Partition为切分后的最小存储和计算单元 纵向可进行内外存切换使用,即当内存不足时,可以用外原创 2020-12-23 21:00:48 · 96 阅读 · 1 评论