hive
yanzhelee
这个作者很懒,什么都没留下…
展开
-
hive内部表与外部表
hive内部表与外部表hive的内部表与外部表之间的区别 区别 创建表过程 删除表过程 内部表 会将数据移动到数据仓库指向的路径 元数据和实际数据一起删除 外部表 仅记录数据所在的路径,不会对数据的位置坐任何改变 只删除元数据,不删除实际数据,相对比较安全。传统数据库和hive之间的区别传统数据库对表的验证是schema on write(写时模式),而hive在原创 2017-07-16 22:08:27 · 1372 阅读 · 0 评论 -
hive分区表
hive分区表假设有海量的数据保存在hdfs的某一个hive表明对应的目录下,使用hive进行操作的时候,往往会搜索这个目录下的所有文件,这有时会非常的耗时,如果我们知道 这些数据的某些特征,可以事先对他们进行分裂,再把数据load到hdfs上的时候,他们就会被放到不同的目录下,然后使用hive进行操作的时候,就可以在where子句中对这些特征进行过滤。原创 2017-07-17 00:32:10 · 2713 阅读 · 0 评论 -
hive桶表
hive中有桶的概念,对于每一个表或者分区来说,可以进一步组织成桶,其实就是更细粒度的数据范围。hive采用列值哈希,然后除以桶的个数以求余数的方式确定该条记录是存放在那个表中。公式:whichBucket = hash(columnValue) % numberOfBucketshive桶表最大限度的保证了每个桶中的文件中的数据量大致相同,不会造成数据倾斜。原创 2017-07-23 23:57:45 · 1448 阅读 · 0 评论 -
《Hive编程指南》笔记一
《Hive编程指南》笔记一1、hive不支持行级插入操作、更新操作和删除操作。hive不支持事务。2、用户还可以为数据库增加一些相关的键-值对属性信息,create database testwith dbproperties('creator'='Mark','date'='2012-01-02');#通过下面语句查看描述信息describe database extended test;t原创 2017-07-26 11:43:31 · 1096 阅读 · 0 评论 -
HIVE 排序总结
Hive排序过程主要用到order by 、sort by、distribute by 和cluster by。本文详细的总结了以上语句的用法。原创 2017-08-21 21:57:48 · 5197 阅读 · 0 评论 -
Hive UNION ALL的使用和Hive子查询
介绍hive union all用法和子查询用法。原创 2017-08-21 22:53:50 · 12414 阅读 · 1 评论 -
Hive高级聚合之GROUPING SETS/ROLLUP/CUBE
GROUPING SETS该关键字可以实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达,它仅仅使用一个stage完成这些操作。ROLLUP和CUBE是GROUPING SETS的组合。原创 2017-08-21 23:39:15 · 1792 阅读 · 0 评论 -
Hive分析函数和窗口函数
Hive分析函数和窗口函数在Hive 0.11之后支持的,扫描多个输入的行计算每行的结果。通常和OVER,PARTITION BY, ORDER BY, WINDOWING配合使用。和传统的分组结果不一样,传统的结果每组中只有一个结果。分析函数的结果会出现多次,和每条记录都连接输出。转载 2017-08-23 15:56:54 · 1529 阅读 · 0 评论 -
Hive自定义函数
Hive自定义函数1 UDF用户自定义函数(user defined function)针对单条记录。1.1 创建函数流程添加pom依赖自定义一个java类继承UDF类重写evaluate方法打成jar包在hive中执行add jar方法在hive执行创建模板函数1.2 实例一第一步、添加依赖<?xml version="1.0" encoding="UTF-8"?> <de原创 2017-09-28 14:16:48 · 1481 阅读 · 0 评论