- 博客(1)
- 收藏
- 关注
原创 spark期末大作业
需求描述本次实验需要以2020年美国新冠肺炎疫情数据作为数据集,以Python为编程语言,使用Spark对数据进行分析,并对分析结果进行可视化。原始数据集是以.csv文件组织的,为了方便spark读取生成RDD或者DataFrame。首先使用Python将us-counties.csv转换为.txt格式文件us-counties.txt,然后使用本地文件系统上传到HDFS文件系统中,由于本实验中使用的数据为结构化数据,因此可以使用spark读取源文件生成DataFrame以方便进行后续分析实现。由于.
2021-06-13 19:09:32 8029 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人