前言
本次作业在Jupyter Notebook上操作
内容
1.目的2.背景3.数据源来源4.爬取数据5.数据处理6.可视化7.总结
一,目的
通过python爬取数据并用爬取的实时数据进行了数据清洗和分析,并将河北、北京及全国的疫情确诊和疫情曲线的变化结果数据实现了可视化,通过可视化更能直观的展示疫情的变化。
二,背景
2020年新型冠状病毒肺炎迅速爆发,是近百年来人类遭遇的影响范围最广的全球性大流行病也是对全世界人民一次严重危机和严峻考验。选取北京和河北省为主要分析目标,选择新闻平台的疫情传播数据,对两地疫情发展数据进行爬取及分析,基于python的数据可视化处理。
三,数据源来源
网址:
https://news.qq.com/zt2020/page/feiyan.htm
导入包,获取数据
import time
import json
import requests
url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5&callback=&_=%d'%int(time.time()*1000)
data=json.loads(requests.get(url=url).json()['data'])
查看数据的所有键
print(data.keys())
dict_keys(['lastUpdateTime', 'chinaTotal', ' chinaAdd', 'isShowAdd', 'showAddSwitch', 'areaTree'])
比如查看最后一次更新时间,显示2021年5月26日
data['lastUpdateTime']
2021-05-2609:24:26'
四,爬取数据
import requests
import json
import pandas as pd
def getData():
url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5'
headers = {
'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X)AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari
}
r = requests.get(url,headers)
if r.status_code == 200:
return json.loads(r.text)
getData()