使用python和spark对2020年美国新冠肺炎疫情数据分析


本案例基于美国2020年新馆疫情数据作为数据集,数据来源截止至2020年5月19日,编程语言为python,使用spark对数据进行分析,在hadoop环境进行分析,使用Jupyter Notebook作为编写平台。

一、实验平台搭建

  1. 安装Linux Ubuntu Kylin 16.04(因数据集较大,建议内存为3G)
  2. 安装Hadoop 3.1.3 安装教程
  3. Python 3.5(已自带Python 3.5)
  4. 安装Spark 2.4.0 安装教程
  5. 配置Python与Spark的交互 安装教程
  6. 安装Anaconda和Jupyter Notebook 安装教程
    注:环境搭建不做详细介绍,按照上述顺序,从头搭建,基本就可以完成,上面有附带相关教程链接。

二、数据集

1.数据集来源

数据集来自数据网站Kaggle的美国新冠肺炎疫情数据集,该数据集以数据表us-counties.csv组织,据包含以下字段:
字段名称 字段含义 例子
date 日期 2020/1/21;2020/1/22;etc
county 区县(州的下一级单位) Snohomish;
state 州 Washington
cases 截止该日期该区县的累计确诊人数 1,2,3…
deaths 截止该日期该区县的累计确诊人数 1,2,3…
在这里插入图片描述

2.格式转换

(1)将us-counties.csv文件放到Ubuntu系统的/usr/local/hadoop/data目录下,在这个目录下将CSV文件转为TXT文件。
在这里插入图片描述

(2)首先在已安装好的环境中,找到~/jupyternotebook目录,在这个目录下,启动Jupyter Notebook。
在这里插入图片描述在这里插入图片描述
(3)在Jupyter Notebook中新建一个文件,将其命名为toTxt,将下列代码写入到文件中。

import pandas as pd
 
#.csv->.txt
data = pd.read_csv('/usr/local/hadoop/data/us-counties.csv')
with open('/usr/local/hadoop/data/us-counties.txt','a+',encoding='utf-8') as f:
    for line in data.values:
        f.write((str(line[0])+'\t'+str(line[1])+'\t'
                +str(line[2])+'\t'+str(line[3])+'\t'+str(line[4])+'\n'))

在这里插入图片描述
(4)运行完后,查看结果。
在这里插入图片描述

3.将文件上传至HDFS文件系统中

(1)启动Hadoop,并查看启动结果

./sbin/start-dfs.sh

在这里插入图片描述
(2)在HDFS文件系统中,创建/user/hadoop文件夹,后续的运行结果文件都将存放在这里

./bin/hdfs dfs -mkdir -p /user/hadoop
./bin/hdfs dfs -put /usr/local/hadoop/data/us-counties.txt /user/hadoop

在这里插入图片描述在这里插入图片描述在这里插入图片描述

三、使用Spark对数据进行分析

在Jupyter Notebook中新建一个文件,将其命名为analyst,将下列代码分步写入到文件中。
1.首先导入第三方库,读取文件生成DataFrame,方便后续数据对其进行分析,同时要使其能够读取到HDFS的文件,使用rdd操作,对数据进行划分,对之后的操作会更加简单。

from pyspark import SparkConf,SparkContext
from pyspark.sql import Row
from pyspark.sql.types import *
from pyspark.sql import SparkSession
from datetime import datetime
import pyspark.sql.functions as func
 
def toDate(inputStr):
    newStr = ""
    if len(inputStr) == 8:
        s1 = inputStr[0:4]
        s2 = inputStr[5:6]
        s3 = inputStr[7]
        newStr = s1+"-"+"0"+s2+"-"+"0"+s3
    else:
        s1 = inputStr[0:4]
        s2 = inputStr[5:6]
        s3 = inputStr[7:]
        newStr = s1+"-"+"0"+s2+"-"+s3
    date = datetime.strptime(newStr, "%Y-%m-%d")
    return date
 
 
#主程序:
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()
 
fields = [StructField("date", DateType(),False),StructField("county", StringType(),False),StructField("state", StringType(),False),
                    StructField("cases", IntegerType(),False),StructField("deaths", IntegerType(),False),]
schema = StructType(fields)
 
rdd0 = spark.sparkContext.textFile("/user/hadoop/us-counties.txt")
rdd1 = rdd0.map(lambda x:x.split("\t")).map(lambda p: Row(toDate(p[0]),p[1],p[2],int(p[3]),int(p[4])))
 
shemaUsInfo = spark.createDataFrame(rdd1,schema)
 
shemaUsInfo.createOrReplaceTempView("usInfo")

print('success') # 对程序是否完成进行判断,方便看出程序是否执行完毕

在这里插入图片描述在这里插入图片描述
2.统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段,对cases和deaths字段进行汇总统计。

#1.计算每日的累计确诊病例数和死亡数
df = shemaUsInfo.groupBy("date").agg(func.sum("cases"),func.sum("deaths")).sort(shemaUsInfo["date"].asc())
 
#列重命名
df1 = df.withColumnRenamed("sum(cases)","cases")
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值