spark 中 rdd to dataframe 问题

最新推荐文章于 2022-05-21 20:33:57 发布

david_zhang228

最新推荐文章于 2022-05-21 20:33:57 发布

阅读量897

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/david_zhang228/article/details/59494017

版权

spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在spark streaming 过程中遇到数据不对的地方，最有check 到时我们RDD到dataframe 出现了问题

rowRdd = rdd.flatMap(build_data_row)
statsRdd = rowRdd.map(map_to_id)
dfstats = sqlContext.createDataFrame(statsRdd, schema=docShema)

上面的程序中map_to_id 这个function 尽管return Row(.......) 但是在sqlContext.createDataFrame 中出现数据跟预期的不一样的情况
最后从spark 的文档发现， RDD ==> DataFrame 中要指定schema, 或者sampleRatio 的，如果没有指定的话，可能出现数据的错乱

尤其是在table 字段很多的情况下.

PS:

data – an RDD of Row/tuple/list/dict, list, or pandas.DataFrame
schema – a StructType or list of names of columns
samplingRatio – the sample ratio of rows used for inferring

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark 中 rdd to dataframe 问题

在spark streaming 过程中遇到数据不对的地方，最有check 到时我们RDD到dataframe 出现了问题 rowRdd = rdd.flatMap(build_data_row) statsRdd = rowRdd.map(map_to_id) dfstats = sqlContext.createDataFrame(statsRdd, schema=docSh
复制链接

扫一扫

专栏目录

david_zhang228 CSDN认证博客专家 CSDN认证企业博客

码龄8年

36: 原创

14万+: 周排名

191万+: 总排名

4万+: 访问

: 等级

848: 积分

7: 粉丝

1: 获赞

12: 评论

30: 收藏

私信

关注

热门文章

分类专栏

网络
开发流程 1篇
安全 1篇
python 8篇
java 4篇
mysql 2篇
django 2篇
web 前端 2篇
server 4篇
nodejs 1篇
spark 5篇
system 5篇
Go 3篇

最新评论

FreeRadius 和 AD 集成搭一套认证环境
life dream: 按照教程配置，手机可以用AD账号登录，但是在AD域内的计算机无法无线连接。RADIUSD -X ，看了下，Windows 认证的是计算机账号，不知道该怎么配置了。
FreeRadius 和 AD 集成搭一套认证环境
weixin_38627000: 那是因为还要在default 和inner-tunnel 两个文件里添加ntlm 和ntdomain 。不然获取不到域控账号信息得。具体怎么做有点忘记了
FreeRadius 和 AD 集成搭一套认证环境
weixin_38627000: 你这里 eap文件不用修改成peap嘛？另外default 和 inner-tunnel两个文件难道不需要开启ntdomain 和 ntlm嘛？
FreeRadius 和 AD 集成搭一套认证环境
Var阿隆: ntlm 来测试认证 ok 但是 freeradius 执行 ad 里的账号却不通
FreeRadius 和 AD 集成搭一套认证环境
david_zhang228: 可以将Radiusd +x 启动radius server 来debug 一下

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。