记录一些自己在工作的一些小功能的代码实现,不断补充记录。
一、如何查Hive表某个分区的最后更新时间。
通过查HDFS可以得知:
1: 进入Hive环境中,查询某个表的HDFS地址
desc formatted app.app_vdp_cate_health_cate1_coinuser_associndex;
2: 进入到地址中
dfs -ls hdfs://ns7/user/mart_vdp/app/vdp_user/app_vdp_cate_health_cate1_coinuser_associndex;
就可以看到某个分区(2020-02-29)的最后更新时间了:
![]()
二、Hive Runtime Error while processing writable 报错解决
一个一直很正常的任务忽然报了下面的错,搜了半天没找到合适的答案
2020-04-02 20:26:49 INFO Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing writable {11729, 鞋靴, 11730, 流行男鞋, 8.69440268939523E7, 7.483498622843546E7, 0.16180988700330248, second_0}
最后把hive引擎替换成spark引擎,就可以了。
三、查询HDFS文件的大小(查看占用的磁盘空间)
进入linux环境中,输入命令即可:
hadoop fs -du hdfs://ns7/user/mart_vdp/app/vdp_user/app_vdp_cate_health_cate1_ladong_post/dt=2019-08-31
四、合并小文件
在自己的开发环境下,合并小文件:
hadoop jar /software/servers/bdp_tools/mergefiles-1.7.jar MergeTask -p hdfs://ns15/user/mart_vdp/app/xx -u orc;
五、查看目前的任务
查看带有某个关键词vdp的任务
yarn application -list | grep vdp
看看有多少个任务
yarn application -list | grep vdp | wc -l
查看带有多个关键词的任务
yarn application -list | grep vdp | grep anshuai7 | wc -l
2102

被折叠的 条评论
为什么被折叠?



