![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
BlackEyes_SY
在不被人注意的角落里起飞
展开
-
RDD的两种操作(Transformation和Action)
1、转换(transformation)转换(transformation):即从现有的数据集创建一个新的数据集,返回一个新的RDD 的操作。Transformation都是惰性的,它们并不会直接计算结果。它们只是记住了这些应用到基础数据集上的转换动作。只有当发生一个要求返回结果给Driver的Action时,这些Transformation才会真正运行。RDD支持的常用Transform...原创 2020-01-10 11:07:36 · 3655 阅读 · 0 评论 -
什么是shuffle?为什么shuffle?什么算子shuffle?
1、什么是shuffle?把父RDD中的KV对按照Key重新分区,从而得到一个新的RDD。也就是说原本同属于父RDD同一个分区的数据需要进入到子RDD的不同的分区。2、为什么需要shuffle?在分布式计算框架中,数据本地化是一个很重要的考虑,即计算需要被分发到数据所在的位置,从而减少数据的移动,提高运行效率。Map-Reduce的输入数据通常是HDFS中的文件,所以数据本地化要求...原创 2020-01-09 14:06:30 · 7394 阅读 · 0 评论 -
hive什么情况下避免MapReduce?
1.本地模式下,hive可以简单的读取目录路径下的数据,然后输出格式化后的数据到控制台。当执行 select * from tableName时直接将文件中数据格式化输出。2.查询语句中的过滤条件只是分区字段的情况下,无论是否使用limit语句限制输出记录条数,也不会进行mapreduce。3. 设置hive-site.xml里面的配置参数hive.fetch.task.convers...原创 2020-01-08 17:34:17 · 1077 阅读 · 0 评论 -
__HIVE_DEFAULT_PARTITION__报错
show partitions 'table',有时会出现下面情况:是因为hive中分区字段有NULL值,当hive中分区字段有NULL值时,hive会使用dynamic partition,数据会放到一个特殊的分区,这个分区由参数“hive.exec.default.partition.name”控制,默认为“__HIVE_DEFAULT_PARTITION__”,即上面这种情况。解决办...原创 2019-04-01 18:33:31 · 7598 阅读 · 1 评论