大数据队长-CSDN博客

原创聊一聊hive sql 执行计划

●keyexpressions/valueexpressionsMapReduce计算引擎，在Map阶段和Reduce阶段输出的都是键-值对的形式，这里keyexpression和valueexpressions分别描述的就是Map阶段输出的键（key）和值（value）所用的数据列。为什么会出现这种情况？向量化模式是Hive的一个特性，在没有引入向量化的执行模式之前，一般的查询操作一次只处理一行，在向量化查询执行时通过一次处理1024行的块来简化系统底层操作，提高了数据的处理性能。......

2022-07-31 10:25:39 1328

原创 hive 文件格式（列式存储-parquet&orc）

传统的行式数据库，数据按行存储，在没有使用索引的情况下，如果要查询一个字段，需要将整行的数据查找出来，再找到相应的字段，这样的操作是比较消耗I/O资源的。但是如果需要读取所有的列，例如一个数据平台刚接入数据，需要对所有的字段进行校验过滤，在这种场景下列式存储需要花费比行式存储更多的资源，因为行式存储读取一条数据只需要一次I/O操作，而列式存储则需要花费多次，列数越多消耗的I/O资源越多。如果要读取某个列的数据，则可以在读取行组的基础上，读取指定的列，而不需要读取行组内所有行的数据及一行内所有字段的数据。..

2022-07-31 10:18:08 1533

原创 hive 高级分组聚合(grouping sets cube和rollup)

使用高级分组聚合，例如SELECTa,b,SUM(c)FROMtblGROUPBYa,bGROUPINGSETS(a,b)，仅用了一个作业就能够实现union写法需要多个作业才能实现的事情，从这点来看能够减少多个作业在磁盘和网络I/O时多增加的负担，是一种优化，但是同时也要注意因过度使用高级分组聚合语句而导致的数据极速膨胀的问题。相当于selecta,b,sum(c)fromtblgroupbya,b。2.cube会计算所有groupby列的所有组合。......

2022-07-31 10:15:54 883

原创漫谈Map Reduce 参数优化

Hive0.11版本及以后的版本，可以使用hive.auto.convert.join.noconditionaltask.size和hive.auto.convert.join.noconditionaltask两个配置参数。hive.auto.convert.join.noconditionaltask的默认值是true，表示Hive会把输入文件的大小小于hive.auto.convert.join.noconditionaltask.size指定值的普通表连接操作自动转化为MapJoin的形式。...

2022-07-31 10:13:45 817

原创 spark sql 报错 Can‘t zip RDDs with unequal numbers of partitions

Caused by: java.lang.IllegalArgumentException: Can't zip RDDs with unequal numbers of partitions: List(1, 200)处理方式：关闭AQE: set spark.sql.adaptive.enabled = false;

2022-01-25 17:19:30 656

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 聊一聊hive sql 执行计划

原创 hive 文件格式（列式存储-parquet&orc）

原创 hive 高级分组聚合(grouping sets cube和rollup)

原创 漫谈Map Reduce 参数优化

原创 spark sql 报错 Can‘t zip RDDs with unequal numbers of partitions

空空如也

空空如也

原创聊一聊hive sql 执行计划

原创漫谈Map Reduce 参数优化