楓尘君一直觉得将df存为csv文件是一个非常简单操作处理,但是当查阅资料之后发现网上有很多误导和错误,本着从实际出发的原则,记录一下过程:
1. 发现问题
背景:楓尘君想利用spark处理较大的数据集,然后用python将提取特征后的数据集建模
用spark将数据筛选后生成dataframe类型的表: data
于是从网上查看了一下将data表转化为csv文件的方法,于是我发现:
来自:http://cn.voidcc.com/question/p-wygpwrof-boe.html
来自:https://ask.helplib.com/csv/post_12540297
来自:https://codeday.me/bug/20181226/467736.html
这是我google “spark dateframe存为csv” 的前三条答案
发现问题了吗?
***csv()方法里是否需要在末尾加入.csv***三条回答有两种不同的答案,想要探求问题本质的本君去查阅了一下源码