hive
chenjieit619
这个作者很懒,什么都没留下…
展开
-
编写hive udf和使用hive udf:hue的hive界面中使用hive udf函数、oozie使用hive udf函数、hive命令行使用udf函数
开发环境:jdk1.7+idea 16+Hive-1.1.0使用udf的生产环境:cdh5.8.0+hive-1.1.01、导入hive的所有相关jar包或者使用maven引入CDH相关包: 1 2 3 4 5 6 7 8 9 10 11 12转载 2016-11-15 11:14:53 · 2614 阅读 · 0 评论 -
Hive中的数据倾斜
Hive中的数据倾斜hive1. 什么是数据倾斜mapreduce中,相同key的value都给一个reduce,如果个别key的数据过多,而其他key的较少,就会出现数据倾斜。通俗的说,就是我们在处理的时候数据分布的不均,导致了数据大量集中在某一点。造成了数据的热点。其实在mapreduce分析的时候最怕的就是数据倾斜,通常会出现下面的情况:m转载 2017-05-11 17:39:34 · 450 阅读 · 0 评论 -
如何每日增量加载数据到Hive分区表
如何每日增量加载数据到Hive分区表hadoophiveshellcrontab加载数据数据加载到Hive分区表(两个分区,日期(20160316)和小时(10))中每日加载前一天的日志文件数据到表db_track.track_log1. 数据存储数据日志文件,放入某个目录下,每天日志文件放入同一个目录eg: 20转载 2017-05-11 16:26:38 · 2529 阅读 · 0 评论 -
Hive的三种Join方式
Hive的三种Join方式Hive的三种Join方式hiveHive中就是把Map,Reduce的Join拿过来,通过SQL来表示。参考链接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinsCommon/Shuffle/Reduce Jo转载 2017-05-11 16:23:21 · 695 阅读 · 0 评论 -
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql转载 2017-02-27 11:20:19 · 291 阅读 · 0 评论 -
数据导入hive出现的问题记录
问题一:【解决】Hive动态增加partitions不能超过100的问题,全量动态生成partitions超过100会出现如下异常:[plain] view plain copyThe maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.p原创 2017-03-02 09:27:34 · 620 阅读 · 0 评论 -
hive语句优化-通过groupby实现distinct
同事写了个hive的sql语句,执行效率特别慢,跑了一个多小时程序只是map完了,reduce进行到20%。该Hive语句如下:select count(distinct ip) from (select ip as ip from comprehensive.f_client_boot_daily where year="2013" and month="10" uni转载 2016-12-29 14:16:11 · 1094 阅读 · 0 评论 -
Hive函数大全
一、关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: Hive>select 1 from lxw_dual where 1=1; 12. 不等值比较: 语转载 2016-12-28 19:18:39 · 482 阅读 · 0 评论 -
hive替换指定字符串的函数
1、转换函数:select cast(substring('2016-06-05 00:00:00.0',1,10) as int);结果---》201606052、替换函数:select cast(substring(regexp_replace('2016-06-05 00:00:00.0', '-', ''),1,8) as int);结果--》2016转载 2016-11-15 11:23:35 · 16404 阅读 · 2 评论 -
hive获取今天、昨天、明天的日期
主题:解决Hive获取今天、昨天、明天的日期的问题注意:由于hive内置函数中,没有提供获取昨天和明天的日期函数,所以需要编写自定义函数去实现1、获取今天时间(格式可以自定义)语句:select from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss')返回结果:2016-09-14 16:21:59转载 2016-11-15 11:19:25 · 20556 阅读 · 0 评论 -
hive改表结构的两个坑
坑一:改变字段类型后更新数据不成功 关于Hive插入数据的一个小坑,今天插入一个表中数据,插入时写的是常数,比如0.01 ,表中的字段也是DECIMAL(5,2) 按照常理插入的应该是0.01,但是插入后查询是0,为甚! 就分析呀,看语句没问题啊,上网查,上hive官网查,呀~ 发现了原因哦 https://cwiki.apache.or转载 2017-05-05 10:29:04 · 713 阅读 · 0 评论