![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 63
freefish_yzx
这个作者很懒,什么都没留下…
展开
-
hive二种连接方式
hive连接方式原创 2017-08-13 19:22:20 · 550 阅读 · 0 评论 -
hive分桶管理
按照用户创建表时指定的分桶字段进行hash散列多个文件分桶表和分区表的 桶数 和 分区数的 决定机制:分桶表的个数:由用户的HQL语句所设置的reduceTask的个数决定表的分区的个数:也能由用户自定义指定。也能由程序自动生成, 分区是可以动态增长的分桶表和分区表的个数的区别:分桶表是一经决定,就不能更改,所以如果要改变桶数,要重新插入分桶数据分区数是可以动态增长的log日志一天存一个分区分桶表和分区表中数据的表现:1、分桶表中的每个分桶中的数据可以有多个key值2、分区表中原创 2017-08-13 22:04:42 · 8789 阅读 · 0 评论 -
hive join
1、hive HQL语句 要被翻译成MR程序2、MR中的Join操作有两种:MapJoin 和 ReduceJoinselect a.*, b.* from a join b on a.id= b.id;hive的引擎会启动检测两个输入的大小,如果有一方小于默认的25M,那么会自动转化成MapJoin调优的一个小标准:可以上调这个25M如果真的是小表是 990M, 然后自动转化成MapJoin的标准是1G:出现的问题:如果大表的数据过大,那么就有可能造成所有的节点执行MapTask的个数过原创 2017-08-14 19:41:52 · 354 阅读 · 0 评论 -
hive核心基本概念
基于 Hadoop 的一个数据仓库工具: hive本身不提供数据存储功能,使用HDFS做数据存储, hive也不分布式计算框架,hive的核心工作就是把sql语句翻译成MR程序 hive也不提供资源调度系统,也是默认由Hadoop当中YARN集群来调度可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能原创 2017-08-13 21:20:27 · 14708 阅读 · 0 评论 -
hive加载数据和导出数据
hive加载数据和导出数据原创 2017-08-15 09:40:33 · 400 阅读 · 0 评论 -
hive基本类型和复杂类型
hive基本类型和复杂类型原创 2017-08-15 11:07:48 · 2478 阅读 · 0 评论 -
hive内置函数和自定义函数的使用
hive内置函数和自定义函数的使用,自定义函数UDTF中的explode的使用案例内置函数get_json_object的使用案例原创 2017-08-15 20:17:40 · 591 阅读 · 0 评论 -
hive面试之【自连接,行转列,列转行】
hive面试之【自连接,行转列,列转行】1.hive自连接现有这么一批数据,现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数三个字段的意思:用户名,月份,访问次数A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,原创 2017-08-23 12:48:57 · 4364 阅读 · 0 评论 -
hive内部表和外部表区别
首先我们虚拟理解hive有二个系统,hdfs和hive下的操作查找了啥的,内部表:删除数据时候 (1)hadoop fs - ls /user/hive/warehouse/table ....是查不到的 ,说明了内部表删除的时候把数据也删除了 (2)hive> hive 查询你的表时候,也是查不到的说明了 内部表删除的时候也把元数据删除了外部表:删除数据的时候(1)Had原创 2018-01-24 16:29:16 · 544 阅读 · 0 评论