自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

转载 transform Vs Udf

在鞋厂的第一个任务,拆表。需要把订单表按照开始日期和结束日期拆分成多条记录,挺新鲜的~ transform方式,使用到了python。 (1)把hive表的数据传入,通过python按照日期循环处理,返回多条记录。 (2)生成序列表,然后采用cross join的方式,在hive端生成多条记录,再根据日期和序列进行处理。 udf方式,更容易操作,我个人习惯使用Java。udf传入...

2018-08-16 13:11:00 130

转载 hive优化-数据倾斜优化

数据倾斜解决方法,通常从以下几个方面进行考量: 业务上丢弃 • 不参与关联:在on条件上直接过滤 • 随机数打散:比如 null、空格、0等“Other”性质的特殊值倾斜键记录单独处理• Join:找出倾斜key,把对应数据插入临时表,如果该表是小表,使用map join解决; • Group by: set hive.groupby.skewindata = tru...

2018-08-16 09:59:00 129

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除