Spark DataFram 脏数据与databricks

前两天在使用Spark SQL的过程中,一直遇到ArrayOutofBoundsError,然后比较了一下用databricks加载数据与不用的区别。
用databricks加载的dataFram在空值时用null代替,而不是”“
所以在加载数据的时候databricks对数据进行了识别判断

这里写图片描述

2017-01-27 06:20:19.046,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9956079230359830,logon,1,,,0.0
2017-01-27 10:59:33.397,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9956079230359830,transfer,1,9956079230359830,8836947166942827,98772.51322927063
2017-01-27 14:26:23.872,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9956079230359830,logon,1,,,0.0
2017-01-28 05:30:01.773,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9956079230359830,transfer,1,9956079230359830,8836947166942827,98772.51322927063
2017-01-29 07:44:07.513,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9

当加载如下数据,在最后一行是被截断了的。
这里写图片描述
databricks能进行加载。
但是非databricks则会报错。
这里写图片描述
而且在任何需要全表扫描的操作,如count,group by等操作,都会报错,究其原因,是因为用非databricks加载中,我们自己定义转换到Row的规则Row(Timestamp.valueOf(arr(0)),arr(1),arr(2),arr(3),arr(4),arr(5).toInt,arr(6),arr(7),arr(8).toDouble) 在遇到脏数据,自然会抛出ArrayOutofBoundsError。

在spark-shell中添加databricks包运行 :spark-shell –packages com.databricks:spark-csv_2.10:1.1.0

在进行计算之前,数据清洗很重要!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值