hive
文章平均质量分 87
滚小滚
这个作者很懒,什么都没留下…
展开
-
hive调优
1,fetch抓取 能不走mr尽量不走在hive-default.xml.template文件中hive.fetch.task.conversion有三个取值:none—所有都走mapreducemore—在全局查找、字段查找、limit查找等都不走mapreduce。如何设置:set hive.fetch.task.conversion=xxx;2,本地模式 可以解决我们大量的小文件,处理时候分配资源过多的情况开启本地模式set hive.exec.mode.local.auto=t转载 2021-04-15 17:16:00 · 191 阅读 · 0 评论 -
hive的压缩和存储格式
压缩一般使用snappy压缩方式开启map端的压缩案例实操:1)开启hive中间传输数据压缩功能hive (default)>set hive.exec.compress.intermediate=true;2)开启mapreduce中map输出压缩功能hive (default)>set mapreduce.map.output.compress=true;3)设置mapreduce中map输出数据的压缩方式hive (default)>set mapreduce.ma原创 2021-04-15 15:04:40 · 187 阅读 · 0 评论 -
hive的查询
查询注意事项:1、order by ==全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。2、sort by不是全局排序,其在数据进入reducer前完成排序。因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1,则sort by只保证每个reducer的输出有序,不保证全局有序。3、distribute by(字段)根据指定的字段将数据分到不同的reducer,且分发算法是hash散列,相当于分桶操作4、Cluster by(原创 2021-04-13 13:14:55 · 426 阅读 · 0 评论 -
hive的基本操作(创建表,数据加载)
创建数据库create database if not exists myhive;use myhive;说明:创建数据库在hdfs上的位置hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value>创建并指定hdfs存储位置create database myhive2 location '/myhi原创 2021-03-31 16:43:49 · 1356 阅读 · 0 评论