US_2019COVID
介绍
2020年美国新冠肺炎疫情数据分析–截止2020年9月9日
- 数据处理
- 使用Spark对数据进行分析
- 数据可视化
一、数据处理
1. 数据集分析
数据包含以下字段,具体含义:
date 日期; county 区县; state 州; cases 截止该日期确诊人数; deaths 截止该日期死亡人数
将csv文件转为txt文件,方便spark读取生成RDD和DataFrame。
转换代码见 csv_txt.py
2. 上传文件到HDFS文件系统
hdfs dfs -mkdir /tmp
hdfs dfs -put us-counties.txt /tmp
二、使用Spark对数据进行分析
这里使用spark SQL对数据进行分析,因数据集是txt文件,需要从RDD转换得到DataFrame。
从RDD转换得到DataFrame有两种方法,因不知道数据结构,使用第二种编程方式定义RDD模式。
#生成表头
fields=[StructField("date",DateType(),False),
StructField(