Spark DataFram 脏数据与databricks

最新推荐文章于 2024-07-28 18:07:04 发布

demonwang1025

最新推荐文章于 2024-07-28 18:07:04 发布

阅读量801

点赞数

分类专栏：数据挖掘文章标签： spark sql

本文链接：https://blog.csdn.net/demonwang1025/article/details/77097353

版权

数据挖掘专栏收录该内容

10 篇文章 0 订阅

订阅专栏

前两天在使用Spark SQL的过程中，一直遇到ArrayOutofBoundsError,然后比较了一下用databricks加载数据与不用的区别。
用databricks加载的dataFram在空值时用null代替，而不是”“
所以在加载数据的时候databricks对数据进行了识别判断

这里写图片描述

2017-01-27 06:20:19.046,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9956079230359830,logon,1,,,0.0
2017-01-27 10:59:33.397,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9956079230359830,transfer,1,9956079230359830,8836947166942827,98772.51322927063
2017-01-27 14:26:23.872,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9956079230359830,logon,1,,,0.0
2017-01-28 05:30:01.773,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9956079230359830,transfer,1,9956079230359830,8836947166942827,98772.51322927063
2017-01-29 07:44:07.513,fc13f150191bf283f091ed9c69bc380d,171.8.0.199,9

当加载如下数据，在最后一行是被截断了的。
这里写图片描述
databricks能进行加载。
但是非databricks则会报错。

而且在任何需要全表扫描的操作，如count,group by等操作，都会报错，究其原因，是因为用非databricks加载中，我们自己定义转换到Row的规则Row(Timestamp.valueOf(arr(0)),arr(1),arr(2),arr(3),arr(4),arr(5).toInt,arr(6),arr(7),arr(8).toDouble) 在遇到脏数据，自然会抛出ArrayOutofBoundsError。