hadoop&hive
u010867294
这个作者很懒,什么都没留下…
展开
-
msck修复hive分区
外部表,删除表结构后,重新创建表,此时数据还在,但是查询为空,使用该命令修复命令msck repair table table_name原创 2021-12-23 16:41:06 · 947 阅读 · 0 评论 -
Hive transform中的NULL值处理
在hive的transform中,输入中 NULL 值会被转换成字符串 '\N'(大写N),同时输出时 '\N' 会再次被转化为 NULL所以在transform中,判断某列为NULL实际上应该是判断该列是否等于'\N'即# coding:utf-8import sysfor line in sys.stdin: res = line.strip().split('\t...原创 2020-04-10 15:36:29 · 919 阅读 · 1 评论 -
运行中hadoop任务修改/kill
操作命令kill任务hadoop job -kill ${job-id}修改优先级hadoop job -set-priority ${job-id} ${priority}修改map并发hadoop job -set-map-capacity ${job-id} $n修改reduce并转载 2016-07-07 17:10:23 · 1424 阅读 · 0 评论 -
hadoop put 强制覆盖文件
若hdfs上已经存在文件,要强制覆盖,用 -f 命令如:hadoop fs -put -f file.name /home/test/原创 2017-06-06 20:15:01 · 44623 阅读 · 0 评论 -
Hive中日期处理函数
1、日期函数UNIX时间戳转日期函数:from_unixtime()函数 格式 返回值 说明 from_unixtime from_unixtime(bigint unixtime[, string format]) string 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式 hive ...转载 2018-08-10 19:28:30 · 2311 阅读 · 0 评论 -
hive使用transform 相同的key由一个reduce处理并且有序
add file word_count.py;select transform(word) using 'python word_count.py' as word,cntfrom( select word from table_a distribute by word sort by word) t0word_count.py 代码如下# codi...原创 2019-01-03 20:06:03 · 853 阅读 · 0 评论