hive进阶

最新推荐文章于 2022-11-20 17:39:35 发布

枫叶的落寞

最新推荐文章于 2022-11-20 17:39:35 发布

阅读量301

点赞数 1

分类专栏： hive数据仓库的开发文章标签： hadoop hive 数据仓库大数据

本文链接：https://blog.csdn.net/u013220482/article/details/78667022

版权

hive数据仓库的开发专栏收录该内容

0 篇文章 0 订阅

订阅专栏

hive中易忽略知识点记录

说明：hive作为大数据分析和存贮中，搭建数据仓库最好的几个组件来说，无论是对于数据存贮（典型的hadoop生态圈的分布式文件存贮类型），还是说对于满足数据分析中要求的快速获取不同维度的数据，hive都扮演着不可忽略的角色

hive基本操作

   对于hive中的基本操作，如：新建数据库、新建表以及基本的hivesql这些操作，对于熟悉SQL的基本操作的童鞋，这部分应该不是什么问题，对于查询来说，无非就是增加了一些自定义的函数，UDF\UDTF\UDAF等，这部分在这里就不罗嗦了，如果需要的时候，再就这个项目专门进行梳理

外部表

	假如我们正在分析一个外部数据源的数据，但是我们又想要hive来进行分析，那该怎么做呢？
	so easy！我们只需要建立一个外部表
	create  external table if not exist test {
	F1 STRING,
	F2 STRING
	}
	row format delimited fields terminated by ','
	location '/test/test.txt'
关键词external表明建立的这个表是外部的，location表明具体的文件路径

注意：因为表是外部表，所以hive并没有把这个表作为它自己的私有财产，所以删除表并不会删除这些原始数据，但是描述表的元数据会被删除掉
##order by 和sort by

hive中order by 和sql中的order by的用法和效果是一样的，其作用是会对查询结果进行一个全局排序，也就是说，对于一个很大的数据集，会对一个查询集起一个reduce进行处理
sort by是在每个reducer中进行排序，保证了在每一个reducer的结果都是局部有序的，但并非全局有序的，有时候利用sort 可以提高全局排序的效率

视图

视图可以保存一个查询并像对待表一样对这个查询进行操作，说白了，就是可以将嵌套查询里面经常需要执行的查询语句抽象出来，创建为一个视图，这样就缩短了查询的效率，因为在job执行计划的时候，hive会首先执行hive的视图，然后将视图产生的结果作为下一个查询的中间结果

分区

hive查询中，经常需要对整个表进行扫描，相比于oracle中，如果我们在设计表的时候，每天建一张表的话，后期的维护成本会很大，这时候就需要建分区表

调优

sequence file 存贮格式

压缩文件是为了更好的节约存贮空间，但是，在hadoop中存贮裸压缩文件的一个缺点是：这些文件是不可分割的。而可分割文件在MR的过程中，可以划分成多个部分，由多个mapper并行执行。在hive中使用sequence file文件存贮的话，那么需要在create table的时候通过 stored as sequence指定就好

压缩级别分为none、record、block，其中block（块）压缩性能最好，用户可以在hadoop的mapred-site.xml中指定

hive count报错

如果hive在count时，出现Error: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z异常，这是因为hive在查询的时候，没有找到snappy的相关文件，因为hive在加载的时候，需要LD_LIBRARY_PATH环境变量

解决方案：配置环境变量或者export环境变量
export HADOOP_COMMON_HOME=$HADOOP_HOME

枫叶的落寞

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
hive进阶

hive中易忽略知识点记录说明：hive作为大数据分析和存贮中，搭建数据仓库最好的几个组件来说，无论是对于数据存贮（典型的hadoop生态圈的分布式文件存贮类型），还是说对于满足数据分析中要求的快速获取不同维度的数据，hive都扮演着不可忽略的角色hive基本操作对于hive中的基本操作，如：新建数据库、新建表以及基本的hivesql这些操作，对于熟悉SQL的基本操作的童鞋，这部分应
复制链接

扫一扫