大数据作业——对疫情数据分析(个人)

前言

本次作业在Jupyter Notebook上操作

内容

1.目的2.背景3.数据源来源4.爬取数据5.数据处理6.可视化7.总结

一,目的

通过python爬取数据并用爬取的实时数据进行了数据清洗和分析,并将河北、北京及全国的疫情确诊和疫情曲线的变化结果数据实现了可视化,通过可视化更能直观的展示疫情的变化。

二,背景

2020年新型冠状病毒肺炎迅速爆发,是近百年来人类遭遇的影响范围最广的全球性大流行病也是对全世界人民一次严重危机和严峻考验。选取北京和河北省为主要分析目标,选择新闻平台的疫情传播数据,对两地疫情发展数据进行爬取及分析,基于python的数据可视化处理。

三,数据源来源

网址: https://news.qq.com/zt2020/page/feiyan.htm

导入包,获取数据

import time
import json
import requests
url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5&callback=&_=%d'%int(time.time()*1000)
data=json.loads(requests.get(url=url).json()['data'])

查看数据的所有键

print(data.keys())
dict_keys(['lastUpdateTime', 'chinaTotal', ' chinaAdd', 'isShowAdd', 'showAddSwitch', 'areaTree'])

比如查看最后一次更新时间,显示2021年5月26日


data['lastUpdateTime']
2021-05-2609:24:26'

四,爬取数据

import requests
import json
import pandas as pd 

def getData():
    url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5'
    headers = {
        'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X)AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari
    }
    r = requests.get(url,headers)
    if r.status_code == 200:
         return json.loads(r.text)
getData()

五,

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值