要求:每天的内容当天要消化
理论听懂:不懂就问
安装搭建:不重要,严格按照笔记或者上课所讲过程实施
代码开发:代码看懂,运行成功,自己敲两遍
如果安装有问题,及时向我反馈
Spark Shuffle比MR Shuffle设计的更好
归并:在内存中对磁盘数据的索引排序,合并数据达到基于磁盘的分布式排序
HDFS:分布式文件系统,基于文件管理数据
Hive:大数据数据仓库,基于表管理数据
1-超级计算机:资源非常庞大
2-分布式:廉价机器构建分布式资源
分布式计算:拆分每个任务,每个任务处理不同数据
数据价值会随着时间的流逝而逐渐降低
产生的时候
2-3年 flink
国内10 - 16
新零售,40台机器
两个Presto集群
32Core,128GB
性能和成本:需要做取舍
DSL,pandas,
R数据挖掘,
SYNC每天的内容当天同步,第二天清理掉
Pandas:所有数据读取进来都会变成DF,DF类似于一张表
SparkCore:所有读取数据读进来都变成RDD,RDD类似于列表
代码中对RDD的操作,本质是对物理每个分区的并行操作
Tez:比MR快10倍,底层还是MR
上层封装了DAG
注意修改node1,2,3,注释,
第一个程序运行结束,提交第三个程序运行:4040
这个程序帮助我们自动构建一个SparkSession类的对象,美叫做spark
spark = SparkSession()
分布式列表
将数据划分多个分区,每个分区存储在不同节点上
对RDD的计算,本质上对RDD每个分区的计算
并行
只有处理文件,才跟文件块有关系
sc里面设置的默认值吧
读大文件是按照块来的
读小文件自带的规则
RDD:分区/切片
explode
按照Key分组,对Value聚合
全局分组
全局分组、全局排序:一定会用到shuffle
统计行数:count
文件中的每一行就是RDD中的一个元素
reduceByKey:自动按照Key分组,对Value进行reduce聚合
bykey经过shuffle, 然后reduce
读一个分区数据就产生一个task,因为经过了shuffle,从磁盘读数据,所以又产生了2个task
100个任务吧
review第一遍,
100,task数,影响精度, /export/server/spark/bin/spark-submit \
preview,