背景:新冠在美国的传播分析
数据来源:Johns Hopkins
代码实现:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import metrics
import warnings
warnings.filterwarnings("ignore")
fig=plt.figure()
plt.rcParams["font.sans-serif"] = "SimHei"
plt.rcParams['axes.unicode_minus'] = False
#us.csv-美国每日确诊总病例及死亡病例,包括各州,美国领地和哥伦比亚特区。
us_data=pd.read_csv('F:/us.csv')
us_data.info()
us_data.describe()
#由于数据并未缺失故暂时不考虑缺失
#尝试画出美国确诊病例关于时间的折线图
plt.plot(us_data['date'].astype(str),us_data['cases'])
plt.show()
plt.plot(us_data['date'].astype(str),us_data['deaths'])
plt.xticks(rotation=45)
plt.show()
#由于x轴数据过多不好分析,故转换为月份进行分析
us_data['date']=pd.to_datetime(us_data['date'])
us_data['month']=us_data['date'].dt.month
month_cases=us_data.groupby(by='month')['cases'].sum()
month_deaths=us_data.groupby(by='month')['deaths'].sum()
#可视化分析
plt.plot(month_cases.index,month_cases)
plt.title('美国2020年各月确诊人数')
plt.show()
plt.plot(month_deaths.index,month_deaths)
plt.title('美国2020年各月死亡人数')
plt.show()