自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

jliang3的博客

大数据

关注

关注数：文章数：1 文章阅读量：1052 文章收藏量：2

作者: J-JunLiang

一个热爱挖掘的数据从业者，勤学好问、动手达人，公仔厂的一位码农，期待与大家一起交流探讨机器学习相关内容~

展开

PySpark的DataFrame

PySpark的DataFrame的具体操作：读取数据集、观察文档、查看列名、文档统计值、查看变量属性、选择特定变量、筛选特定样本、计算不重复值、资料清洗、处理缺失值、转换类型，具体例子如下所示： ## 读取数据集 fileDF = spark.read.csv('hdfs://tmp/ratings.csv', sep = ',', header = True) ## 观察文档 fileDF....

转载 2019-05-28 15:08:45 · 1052 阅读 · 0 评论