- 博客(6)
- 收藏
- 关注
原创 SparkSQL中RDD DataFrame DataSet区别
DataSet结合了RDD和DataFrame的优点,并且带来一个新的概念Encoder.当数据序列化时,它会产生字节码和off-heap进行交互,能够达到按需访问数据的效果,而不用反序列化整个对象.Dataset和DataFrame拥有完全相同的成员函数,区别只是每一行的数据类型不同。schema:RDD每一行的数据,结构都是一样,这个结构存储在schema中.Spark通过schema就能够读懂数据,因此在 通信和IO时就只要序列化和反序列化数据,而结构的部分可以省略。...
2022-08-26 20:00:01
214
原创 Spark中RDD深入浅出
RDD是一个弹性,客服员的分布式数据集,是spark中最基本的抽象,是一个不可变的有多个分区的可以并行计算的集合.RDD中并不装真正要计算的数据,而装的是描述信息,描述以后从哪里读取数据,调用了什么方法,传入了什么函数以及依赖关系。...
2022-07-21 21:46:05
374
原创 HQL如何优化
union优化尽量不要使用union(union去掉重复的记录)而是使用union all 在使用group bycount distinct优化在数据量多的时候,cd操作会需要一个rt来完成,这一个reduce需要处理的数据量太大,就会导致整个job很难完成, 一般count distinct 使用先group by在count的方式替换 不要使用count(distinctcloumn),使用子查询 select count(1) from (select id from tab
2022-07-08 23:54:17
672
原创 MapReduce任务优化 阿里云平台ODPS Join方法等等详细解析
1 计算机性能CPU,内存,磁盘健康,网络2 I/O操作优化 - 数据倾斜数据输入Map阶段Reduce阶段Map长尾 : Map端读取数据由于带下分布不均匀,会导致一些Map Instance读取和处理的数据特别多,造成Map长尾;主要是由于Reduce长尾 : 主要是keyy的分布不均匀所导致,主要场景:Join长尾 : 主要场景为动态分区优化 : 动态分区带来的小文件过多的问题进行小文件合并开窗函数的优化 : 某个维度的TopN的计算,通用的方法是使用Row_Number排序,然后取TopN.但
2022-06-30 21:37:43
1385
原创 MapReduce详细解析完整流程
其中ReduceTask的处理流程如下 :优点 : 易于编程,扩展性高,高容错性,适合PB以上海量离线数据处理,可实现上前台服务器集群并发工作缺点 : 不擅长实时计算,反应慢.不适合流式计算,因为MR是静态的,流式计算输入数据必须是动态的,不擅长DAG(有向图)计算,多个应用程序存在依赖关系,后一个应用程序作为前一个的输出,在做的时候会造成大量的磁盘io开销,性能非常低下....
2022-06-27 18:41:55
4656
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人