自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(5)
  • 资源 (2)
  • 收藏
  • 关注

原创 懵逼,同事前几天问我一个udf 问题 ,还是 Python 格式的

 以前所有的Hive 函数都是 Java  或是 Scala 语言写的 ,Python 没有弄个 ,看到Python 格式的 code  懵逼了 ,非常懵逼 今天在看 Python 正则表达式偶遇 Python udf 的一个 case  ,不过 Python 484  not support  udaf or udtf  ??  I have know idea now .fuck...

2018-10-31 18:05:33 444

原创 Hive error log :FAILED: Execution Error, return code 137 from org.apache.hadoop.hive.ql.exec.mr.Mapr

From below log is not easy to find the root reason ,any body know that ,thx2018-10-22 03:45:41 INFO 2018-10-22 03:45:41,651 Stage-2(job_1540003897972_375058) map = 100%, reduce = 99%, Cumulative ...

2018-10-22 09:05:26 2455 4

原创 Hive 关联主键数据倾斜的一种处理方法

记得之前用过一种办法,concat(a.col,'-',ceil(rand()*100)%20)),将记录数特别多的关联字段取模20,得到新字段a.col2;另外维护一张有20条记录的小表,小表的数据从0到19,用b表的关联字段关联这张小表得到新的字段b.col2,然后再用这个新字段b.col2关联a表的新字段a.col2这样,相当于a表的值特别多的记录,分散为了20份,这个分为多少份可以根据实...

2018-10-18 17:52:53 770

转载 一个优秀投资人必备的12条素养(深度总结!)

素养1站的高,看的远投资如下棋,看不到三步,谈不上高手,真正的大师往往能看到七八步之后。最优秀的投资人能预判五年以后的行业形势,并提前布局,软银的孙正义,投资日本雅虎、阿里巴巴等就是其远见卓识的具体表现。优秀的投资人能够看到三年以后的行业形势,比如股权分置改革前购买法人股的某非知名投资人,07年中小板开板后作出“宁可投错,不可错过”判断的投资业大佬,那些09年开始全力布局移动互联网...

2018-10-16 20:00:58 487

原创 hive null 值倾斜数据处理方法

on case when a.user_id is null then concat(‘jd-hive’,rand() ) else a.user_id end = b.user_id;如果两个表join 时 关联键 有众多null  值  ,null值数据会被分发到某一个节点 ,会导致数据倾斜  导致process 运行缓慢 或是因为内存溢出等原因被系统识别kill...

2018-10-16 16:04:52 1008 2

etl 数据加载

etl 数据加载etl 数据加载etl 数据加载etl 数据加载

2011-11-10

数据库

数据库

2011-11-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除