Hive
阿萨德沐阳
这个作者很懒,什么都没留下…
展开
-
Hive千亿级数据倾斜、小文件过多、性能优化
https://mp.weixin.qq.com/s/awCvlb9BzCRX-Da1_l1FYg | 一文学会Hive解析Json数组(好文收藏)https://mp.weixin.qq.com/s/hz_6io_ZybbOlmBQE4KSBQ | Hive千亿级数据倾斜解决方案(好文收藏)https://mp.weixin.qq.com/s?__biz=Mzg2MzU2MDYzOA==&mid=2247483683&idx=1&sn=14b25010032bdf0d375080e48de36d7f&原创 2022-07-10 16:44:43 · 299 阅读 · 0 评论 -
大数据-处理数据倾斜
大数据处理数据倾斜原创 2022-06-28 10:23:20 · 115 阅读 · 0 评论 -
大数据-小文件处理
大数据处理小文件原创 2022-06-28 10:21:50 · 330 阅读 · 0 评论 -
Hive数据倾斜
Hive数据倾斜原因:key分布不均匀,数据重复表现:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大,通常可能达到3倍甚至更多。 最长时长远大于平均时长。解决方案:1、从数据源头,业务层面进行优化2、找到key重复的具体值,进行拆分,hash。异步求和。create table data_skew( key string原创 2022-04-28 19:00:01 · 46 阅读 · 0 评论 -
HIVE 时间类型转换函数 from_unixtime和unix_timestamp
时间类型:时间戳 timestamp日期 datecreate table testDate( ts timestamp ,dt date) row format delimited fields terminated by ',';// 2022-02-19 14:24:57.200,2022-02-19时间戳与时间字符串转换// from_unixtime 传入一个时间戳以及pattern(yyyy-MM-dd) 可以将 时间戳转换成对应格式的字符串selec转载 2022-04-27 22:47:12 · 1077 阅读 · 0 评论 -
hive 中reduce个数设定
说明:hive版本为1.2.1hive调整reduce个数在hadoop的mapred-default.xml文件中修改设置每个job的Reduce个数hive> set mapreduce.job.reduces = 5;转载 2022-04-09 19:42:28 · 1375 阅读 · 0 评论 -
Hive 删除整个数据库,包括其中的所有表
drop DATABASE IF EXISTS 数据库名 CASCADE;使用CASCADE ,表示强制删除。原创 2022-04-08 17:53:03 · 2933 阅读 · 0 评论