- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 Hive常用的调优方法
前言:Hive调优是日常工作中比较常见的问题,本文简要总结一下常用的调优方法。一、代码层面的优化1.去重两种方式:distinct和group by。推荐使用group by来对数据去重。distinct会将相同的key shuffle到一个reduce task中处理,group by 会启用多个reduce task来对数据进行分组去重。2. 在做具体业务时,尽量明确具体的字段内容,避免使用select * 。3.在使用join时,可以先过滤表中的数据之后再进行join。二、小文件过
2022-02-09 20:26:11
3185
原创 Spark数据分区的源码分析
这里我们主要分析一下 在Spark中创建RDD时候数据是如何分区的。以一个集合数据为例:val listRdd = sc.makeRDD(List(1,2,3,4))点进makeRDD方法makeRDD方法有两个参数:Seq:传入的序列numSlices:切片数,没有制定的会有默认的defaultParallelism,默认的切片数与本机的内核数有关点进parallelize方法,在点 getPartitions方法里的slice方法slice方法的逻辑:1.如果传入的numSlices&
2022-01-21 17:47:54
820
原创 python实现 斐波那契数列计算
描述斐波那契数列如下:F(0) = 0, F(1) = 1F(n) = F(n-1) + F(n-2)编写一个计算斐波那契数列的函数,采用递归方式,输出不超过n的所有斐波那契数列元素调用上述函数,完成如下功能:用户输入一个整数n,输出所有不超过n的斐波那契数列元素、输出数列的元素和及平均数,输出按照顺序,用英文逗号和空格分割此题目为自动评阅,请严格按照要求规范输入和输出...
2018-08-16 10:45:17
3227
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人