- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 spark数据清洗解决方案
数据倾斜的解决方案 之 小表join大表转为小表broadcast+map大表实现。适用场景:在对RDD使用join类操作,或者是在Spark SQL中使用join语句时,并且join操作中的一个RDD或表的数据量比较小(比如几百M或者一两G)。实现原理:普通的join是会走shuffle过程的,而一旦shuffle,就相当于会将相同key的数据拉取到一个shuffle read task...
2020-01-15 15:02:11 2407
原创 java.lang.RuntimeException: java.lang.String is not a valid external type for schema of boolean
使用spark进行json解析时发生 Caused by: java.lang.RuntimeException: java.lang.String is not a valid external type for schema of boolean表示的是,hive表的数据类型是Boolean类型,但是你自己却定义成string类型...
2020-01-14 10:10:38 746
linux与shell相关
2018-12-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人