hive
文章平均质量分 59
wangqiaoshi
这个作者很懒,什么都没留下…
展开
-
hive外部表使用分区partition(实时导数据)
from http://blog.csdn.net/azhao_dn/article/details/7713017 1)创建外部表 [python] view plaincopy create external table test(username String,work string) PARTITIONED BY(year S转载 2014-02-27 18:16:59 · 332 阅读 · 0 评论 -
hive 中的多列进行group by查询方法
from http://blog.csdn.net/jiedushi/article/details/7579132 在工作中用hive进行数据统计的时候,遇到一个用group by 进行查询的问题,需要统计的字段为 gid,sid,user,roleid,time,status,map_id,num 其中time字段为时间戳形式的,统计要求为将各个字段按照每个小时的num总转载 2014-02-17 14:24:32 · 484 阅读 · 0 评论 -
hive load data出错
今天往hive导数据时发生了个错误 hive> load data inpath '/user/tmp/uids.test_copy_3.txt' into table userfeature.user_strategy partition(sid='203'); Loading data to table userfeature.user_strategy partition (sid=203原创 2014-02-18 23:15:53 · 1352 阅读 · 0 评论 -
hive优化之------控制hive任务中的map数和reduce数
from http://superlxw1234.iteye.com/blog/1582880 一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;转载 2014-03-12 21:37:06 · 547 阅读 · 0 评论