Spark中的DataFrame结果出现None

最新推荐文章于 2023-11-17 11:05:40 发布

置顶小草也疯狂

最新推荐文章于 2023-11-17 11:05:40 发布

阅读量2k

点赞数 1

分类专栏：问题

本文链接：https://blog.csdn.net/shadow_walker/article/details/104037926

版权

问题专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近在用Spark拉数据的过程中发现得到的数据总会有None值，存成np格式对应的类型就是np.nan，用np.isnan()可以进行检查。

找了很久才发现问题的原因不是数据生成的过程，而是pyspark.sql 中的Row对象要保证是每条记录的对应属性类型是一致的，比如：

from pyspark.sql import Row

def gen_sample(a):
    if a % 1 == 0:
        # The type of y is float
        row_result = Row(x=0, y=0.)
    else:
        # The type of y is int
        row_result = Row(x=0, y=0)
    return row_result

上述函数中，如果a既有奇数也有偶数，那么得到的结果中y属性应该会出现None值，原因在于同列的y对应的类型不一致。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小草也疯狂

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark中的DataFrame结果出现None

最近在用Spark拉数据的过程中发现得到的数据总会有None值，存成np格式对应的类型就是np.nan，用np.isnan()可以进行检查。找了很久才发现问题的原因不是数据生成的过程，而是pyspark.sql 中的Row对象要保证是每条记录的对应属性类型是一致的，比如：from pyspark.sql import Rowdef gen_sample(a): if a % ...
复制链接

扫一扫