前两天在使用Spark SQL的过程中,一直遇到ArrayOutofBoundsError,然后比较了一下用databricks加载数据与不用的区别。
用databricks加载的dataFram在空值时用null代替,而不是”“
所以在加载数据的时候databricks对数据进行了识别判断
2017-01-27 06:20:19.046,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9956079230359830,logon,1,,,0.0
2017-01-27 10:59:33.397,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9956079230359830,transfer,1,9956079230359830,8836947166942827,98772.51322927063
2017-01-27 14:26:23.872,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9956079230359830,logon,1,,,0.0
2017-01-28 05:30:01.773,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9956079230359830,transfer,1,9956079230359830,8836947166942827,98772.51322927063
2017-01-29 07:44:07.513,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9
当加载如下数据,在最后一行是被截断了的。
databricks能进行加载。
但是非databricks则会报错。
而且在任何需要全表扫描的操作,如count,group by等操作,都会报错,究其原因,是因为用非databricks加载中,我们自己定义转换到Row的规则Row(Timestamp.valueOf(arr(0)),arr(1),arr(2),arr(3),arr(4),arr(5).toInt,arr(6),arr(7),arr(8).toDouble) 在遇到脏数据,自然会抛出ArrayOutofBoundsError。
在spark-shell中添加databricks包运行 :spark-shell –packages com.databricks:spark-csv_2.10:1.1.0
在进行计算之前,数据清洗很重要!!!