2020年美国新冠肺炎疫情数据分析

这篇博客介绍了2020年9月9日美国新冠肺炎疫情的数据分析,包括数据处理、使用Spark进行分析和数据可视化。通过Spark SQL统计了每日累计病例、新增病例、各州确诊和死亡人数,以及病死率等关键指标,并用pyecharts进行了可视化展示。
摘要由CSDN通过智能技术生成

US_2019COVID

介绍

2020年美国新冠肺炎疫情数据分析–截止2020年9月9日


  • 数据处理
  • 使用Spark对数据进行分析
  • 数据可视化

一、数据处理

1. 数据集分析

data
数据包含以下字段,具体含义:
date 日期; county 区县; state 州; cases 截止该日期确诊人数; deaths 截止该日期死亡人数
将csv文件转为txt文件,方便spark读取生成RDD和DataFrame。
转换代码见 csv_txt.py

2. 上传文件到HDFS文件系统

hdfs dfs -mkdir /tmp
hdfs dfs -put us-counties.txt /tmp

二、使用Spark对数据进行分析

这里使用spark SQL对数据进行分析,因数据集是txt文件,需要从RDD转换得到DataFrame。
从RDD转换得到DataFrame有两种方法,因不知道数据结构,使用第二种编程方式定义RDD模式。

#生成表头
fields=[StructField("date",DateType(),False),
        StructField(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值