数据
文章平均质量分 91
_final__
这个作者很懒,什么都没留下…
展开
-
hive udf&udaf开发
进行UDF开发主要分为两种情况,根据UDF输入参数的类型进行区分。原创 2017-09-28 14:14:09 · 1074 阅读 · 0 评论 -
Hive2ElasticSearch
Hive2ElasticSearch目标是将hive数据导入到es中。 起初通过读hive中的表文件使用bulk api来向es推数,但是效率太低,满足不了大数据的需求。 后来发现es官方提供了解决方案es-hadoop。在此记录一些使用中遇到的问题。ES-hadoop为elasticsearch提供了一个hive存储处理器(Hive storage handler),使开发人员可以直接定义一个原创 2017-09-28 14:16:32 · 3498 阅读 · 1 评论 -
HIVE STORED&Row format(四)
HIVE STORED&Row formathive表数据在存储在文件系统上的,因此需要有文件存储格式来规范化数据的存储,一边hive写数据或者读数据。hive有一些已构建好的存储格式,也支持用户自定义文件存储格式。主要由两部分内容构成file_format和row_format,两者息息相关,在create table语句中结构如下:[ROW FORMAT row_format]...原创 2017-12-22 15:31:26 · 26441 阅读 · 1 评论 -
HIVE Skewed Table(八)
HIVE Skewed TableSkewed Table可以提高有一个或多个列有倾斜值的表的性能,通过指定经常出现的值(严重倾斜),hive将会在元数据中记录这些倾斜的列名和值,在join时能够进行优化。若是指定了STORED AS DIRECTORIES,也就是使用列表桶(ListBucketing),hive会对倾斜的值建立子目录,查询会更加得到优化。可以再创建表是指定为 Skewed Tab原创 2017-12-29 14:30:22 · 4894 阅读 · 0 评论