hive进阶

hive中易忽略知识点记录

说明:hive作为大数据分析和存贮中,搭建数据仓库最好的几个组件来说,无论是对于数据存贮(典型的hadoop生态圈的分布式文件存贮类型),还是说对于满足数据分析中要求的快速获取不同维度的数据,hive都扮演着不可忽略的角色

hive基本操作

   对于hive中的基本操作,如:新建数据库、新建表以及基本的hivesql这些操作,对于熟悉SQL的基本操作的童鞋,这部分应该不是什么问题,对于查询来说,无非就是增加了一些自定义的函数,UDF\UDTF\UDAF等,这部分在这里就不罗嗦了,如果需要的时候,再就这个项目专门进行梳理

外部表

	假如我们正在分析一个外部数据源的数据,但是我们又想要hive来进行分析,那该怎么做呢?
	so easy!我们只需要建立一个外部表
	create  external table if not exist test {
	F1 STRING,
	F2 STRING
	}
	row format delimited fields terminated by ','
	location '/test/test.txt'
关键词external表明建立的这个表是外部的,location表明具体的文件路径

注意:因为表是外部表,所以hive并没有把这个表作为它自己的私有财产,所以删除表并不会删除这些原始数据,但是描述表的元数据会被删除掉
##order by 和sort by

hive中order by 和sql中的order by的用法和效果是一样的,其作用是会对查询结果进行一个全局排序,也就是说,对于一个很大的数据集,会对一个查询集起一个reduce进行处理
sort by是在每个reducer中进行排序,保证了在每一个reducer的结果都是局部有序的,但并非全局有序的,有时候利用sort 可以提高全局排序的效率

视图

视图可以保存一个查询并像对待表一样对这个查询进行操作,说白了,就是可以将嵌套查询里面经常需要执行的查询语句抽象出来,创建为一个视图,这样就缩短了查询的效率,因为在job执行计划的时候,hive会首先执行hive的视图,然后将视图产生的结果作为下一个查询的中间结果

分区

hive查询中,经常需要对整个表进行扫描,相比于oracle中,如果我们在设计表的时候,每天建一张表的话,后期的维护成本会很大,这时候就需要建分区表

调优

sequence file 存贮格式

压缩文件是为了更好的节约存贮空间,但是,在hadoop中存贮裸压缩文件的一个缺点是:这些文件是不可分割的。而可分割文件在MR的过程中,可以 划分成多个部分,由多个mapper并行执行。在hive中使用sequence file文件存贮的话,那么需要在create table的时候通过 stored as sequence指定就好

压缩级别分为none、record、block,其中block(块)压缩性能最好,用户可以在hadoop的mapred-site.xml中指定

hive count报错

如果hive在count时,出现Error: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z异常,这是因为hive在查询的时候,没有找到snappy的相关文件,因为hive在加载的时候,需要LD_LIBRARY_PATH环境变量

解决方案:配置环境变量或者export环境变量
export HADOOP_COMMON_HOME=$HADOOP_HOME

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值