- 博客(1)
- 收藏
- 关注
原创 使用ubantu+pyspark完成对美国疫情的数据分析和可视化显示
原始数据集是以.csv文件组织的,为了方便spark读取生成RDD或者DataFrame,首先将us-counties.csv转换为.txt格式文件us-counties.txt。转换操作使用python实现,代码组织在transform.py中,过程如下: import pandas as pd #.csv 转化成 .txt data = pd.read_csv('/home/hadoop/us-counties.csv') with open('/home/hadoop/us-co...
2021-06-14 17:13:45 970
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人