day220713,PySpark入门及基础环境,

要求:每天的内容当天要消化

理论听懂:不懂就问

安装搭建:不重要,严格按照笔记或者上课所讲过程实施

代码开发:代码看懂,运行成功,自己敲两遍

如果安装有问题,及时向我反馈

Spark Shuffle比MR Shuffle设计的更好

 

归并:在内存中对磁盘数据的索引排序,合并数据达到基于磁盘的分布式排序

HDFS:分布式文件系统,基于文件管理数据

Hive:大数据数据仓库,基于表管理数据

1-超级计算机:资源非常庞大

2-分布式:廉价机器构建分布式资源

 

 

分布式计算:拆分每个任务,每个任务处理不同数据

 

 

 

数据价值会随着时间的流逝而逐渐降低

 

产生的时候

2-3年  flink

 

 国内10 - 16

新零售,40台机器

 两个Presto集群

32Core,128GB

性能和成本:需要做取舍

 

DSL,pandas,

R数据挖掘,

SYNC每天的内容当天同步,第二天清理掉

 

 

 

 

 

 

Pandas:所有数据读取进来都会变成DF,DF类似于一张表

SparkCore:所有读取数据读进来都变成RDD,RDD类似于列表 

 

代码中对RDD的操作,本质是对物理每个分区的并行操作

 

Tez:比MR快10倍,底层还是MR

上层封装了DAG

注意修改node1,2,3,注释,

Index of /dist 

 第一个程序运行结束,提交第三个程序运行:4040

这个程序帮助我们自动构建一个SparkSession类的对象,美叫做spark 

 spark = SparkSession()

分布式列表

将数据划分多个分区,每个分区存储在不同节点上

对RDD的计算,本质上对RDD每个分区的计算

并行

只有处理文件,才跟文件块有关系

sc里面设置的默认值吧

读大文件是按照块来的

读小文件自带的规则

RDD:分区/切片

explode 

按照Key分组,对Value聚合

全局分组

全局分组、全局排序:一定会用到shuffle

统计行数:count

文件中的每一行就是RDD中的一个元素

 

reduceByKey:自动按照Key分组,对Value进行reduce聚合

 bykey经过shuffle, 然后reduce

读一个分区数据就产生一个task,因为经过了shuffle,从磁盘读数据,所以又产生了2个task

 

 100个任务吧

review第一遍,

 

 

 

 

100,task数,影响精度, /export/server/spark/bin/spark-submit \
 

preview,

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值