PySpark的DataFrame
PySpark的DataFrame的具体操作:读取数据集、观察文档、查看列名、文档统计值、查看变量属性、选择特定变量、筛选特定样本、计算不重复值、资料清洗、处理缺失值、转换类型,具体例子如下所示:
## 读取数据集
fileDF = spark.read.csv('hdfs://tmp/ratings.csv', sep = ',', header = True)
## 观察文档
fileDF....
转载
2019-05-28 15:08:45 ·
1052 阅读 ·
0 评论