自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

qq_43193797的博客

眼界,决定了你的高度

  • 博客(2)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark数据清洗解决方案

数据倾斜的解决方案 之 小表join大表转为小表broadcast+map大表实现。适用场景:在对RDD使用join类操作,或者是在Spark SQL中使用join语句时,并且join操作中的一个RDD或表的数据量比较小(比如几百M或者一两G)。实现原理:普通的join是会走shuffle过程的,而一旦shuffle,就相当于会将相同key的数据拉取到一个shuffle read task...

2020-01-15 15:02:11 2407

原创 java.lang.RuntimeException: java.lang.String is not a valid external type for schema of boolean

使用spark进行json解析时发生 Caused by: java.lang.RuntimeException: java.lang.String is not a valid external type for schema of boolean表示的是,hive表的数据类型是Boolean类型,但是你自己却定义成string类型...

2020-01-14 10:10:38 746

linux与shell相关

Linux是一款类Unix操作系统,它的出现离不开GNU自由软件运动中诞生的开发环境和编译器,又反过来极大的推动了GNU自由软件运动,让崇尚自由软件精神的先驱们不必继续局限在Unix系统上进行开发。Linux出现后,sendmail, wu-ftp, apache等团队纷纷启动了基于Linux系统的开发计划。

2018-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除