使用python爬取疫情数据

本文介绍了一种使用Python爬虫技术抓取夸克网站上的疫情数据的方法,并通过pandas库将数据整理后存储为Excel文件。文章详细展示了如何利用requests和json模块获取网页内容,解析JSON数据,以及如何使用pandas进行数据处理和存储。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

以夸克网站为例子,以下是代码

import requests
import json
#获取网页内容
def get_page(url):
    #请求头用来表示用户身份的(像上学期的那个就会遇到404的那种情况这里可以解决)
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36'}
    try:
        r=requests.get(url,headers=headers)
        r.raise_for_status()#异常处理,200则为正常
        r.encoding=r.apparent_encoding#从服务器返回的网页内容猜测编码方式,但是可以查,一般为utf-8
        return r.json()#如果响应内容为JSON格式数据,该方法可解析JSON数据
    except Exception as e:
        print("Error")
        return ""
        #提取信息
#刚开始爬的是网易的,由于标签有点多,就爬夸克的,以下是夸克的
import pandas as pd
def parse_page(data):
    province=data['list']#找到33个省的信息
    pdata=[]#保存省的信息
    for i in range(33):#33个省
        city=province[i]['list']
        for j in city:
            temp={}
            temp["省份"]=j["province"]
            temp["城市"]=j["city"]
            temp["确诊"]=j["sure_cnt"]
            temp["疑似"]=j["like_cnt"]
            temp["死亡"]=j["die_cnt"]
            temp["治愈"]=j["cure_cnt"]
            pdata.append(temp)
    #print(pdata)
    result=pd.DataFrame(pdata)
    return result
    #数据存储
def save_file(data_df):
    data_df.to_excel("G:\\a大二第二学期\\数据采集与预处理\\作业\\全国各市疫情分布.xlsx",index=False)#index=False表示不到处行序号,而且注意“\\”
    print("恭喜你,保存成功啦!")
#主函数
if __name__ == '__main__':
    url='https://api.m.sm.cn/rest?format=json&method=Huoshenshan.healingCity&mapType=1'#这里容易出错,把把最后&和后面的删掉有这个就不是ajex模式了就不能用json
    hurt_json=get_page(url)
    pdata=parse_page(hurt_json)
    save_file(pdata)
``

<think>嗯,用户想用Python爬取网易网站上的疫情数据。首先,我得看看他们提供的参考引用里有没有相关的信息。引用3提到了网易新闻的疫情网站,链接是https://wp.m.163.com/163/page/news/virus_report/index.html,可能需要用这个URL来爬取数据。不过用户给的引用里,引用2和3都提到了不同的爬取方法,比如用API或者处理动态页面。 首先,我需要确定网易疫情数据是静态还是动态加载的。如果是动态内容,可能需要用Selenium或者requests模拟浏览器。不过引用2里用了post请求获取API数据,可能网易也有类似的接口。或者引用3中的代码可能直接处理网页内容,但需要检查是否有反爬措施。 然后,用户需要具体的步骤,比如如何分析网页结构、发送请求、解析数据。可能需要用到requests库发送HTTP请求,BeautifulSoup或者正则表达式解析HTML。如果数据是通过JavaScript加载的,可能需要用Selenium或者找到隐藏的API接口。 另外,引用3提到将数据存入Excel,用户可能也希望保存数据。所以步骤应包括数据存储部分,比如使用pandas或openpyxl库。 还要注意反爬机制,比如设置请求头中的User-Agent,可能需要模拟浏览器行为,或者处理Cookies。引用2中的headers可以作为参考,确保请求头包含有效的User-Agent。 最后,生成相关问题需要考虑用户可能的后续需求,比如动态页面处理、数据存储优化或反反爬策略。比如,如何处理动态加载的数据,或者如何提高爬虫效率。</think>根据引用[3]提供的网易疫情网站URL,以下是使用Python爬取网易疫情数据的步骤分析: ### 一、网页分析阶段 1. 打开网易疫情数据页面(URL:`https://wp.m.163.com/163/page/news/virus_report/index.html`) 2. 按`F12`打开开发者工具,在`Network`标签中筛选`XHR`请求,发现数据通过API接口动态加载[^3] 3. 定位到实际数据接口地址: ``` https://c.m.163.com/ug/api/wuhan/app/data/list-total ``` ### 二、代码实现步骤 ```python import requests import pandas as pd def get_163_covid_data(): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36' } # 请求数据接口 api_url = 'https://c.m.163.com/ug/api/wuhan/app/data/list-total' response = requests.get(api_url, headers=headers) if response.status_code == 200: data = response.json() # 解析国内数据 china_data = data['data']['areaTree'][0]['children'] # 转换为DataFrame df = pd.DataFrame([{ '省份': item['name'], '确诊': item['total']['confirm'], '治愈': item['total']['heal'], '死亡': item['total']['dead'], '新增': item['today']['confirm'] } for item in china_data]) return df else: print('请求失败,状态码:', response.status_code) ``` ### 三、数据存储示例 ```python # 保存到Excel df = get_163_covid_data() df.to_excel('163_covid_data.xlsx', index=False) # 保存到CSV df.to_csv('163_covid_data.csv', encoding='utf_8_sig', index=False) ``` ### 四、注意事项 1. 需要定期更新请求头中的`User-Agent`,可参考引用[2]中的随机User-Agent设置方法 2. 该接口返回JSON数据包含全球数据,国内数据在`data.areaTree[0].children`路径下 3. 建议添加异常处理机制,应对接口变更或访问限制[^3]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值