爬取最新疫情信息
目录
一、选题的背景
为什么要选择此选题?
由于疫情原因的影响,世界各地都因为新型冠状病毒(简称新冠肺炎)而陷入种种危机。因此,对于现存国内的疫情数据我进行了一个爬取和一些数据分析,更加直观的查看出国内现存疫情的情况。
让现在在社会上经常流通的人们加强防范意识,了解现存哪些地区风险较高,出行进行防护。在外出差、走生意的人也更加了解到各地的疫情情况,尽量避免高危地区出行!
数据来源:一点资讯。
网址:24小时滚动播报全国最新疫情 (yidianzixun.com)
二、主题式网络爬虫设计方案
1.主题式网络爬虫名称
Python网络爬虫———现存疫情数据爬取及分析
2.主题式网络爬虫爬取的内容与数据特征分析
爬取现存疫情数据并进行处理
3.主题式网络爬虫设计方案概述
先确定主题,爬取现存疫情数据,设计爬取程序进行爬取,并以excel形式储存,然后利用pandas库进行数据分析和清洗,再利用Matplotlib等库进行图形图像绘制。最后保存数据。 使用到的模块:
requests:模拟网络连接,发送请求,获取网页内容
json:第三方库,对爬取的数据编解码
xlrd:第三方库,读取excel文件
xlwt:第三方库,写入excel文件
我们把代码分为几个个模块爬取模块(),存储模块(),分析模块()
三、主题页面的结构特征分析
1.主题页面的结构与特征分析
首页与信息集
2.开发者工具进行抓包
3.获取url
4.获取请求头headers
5.拿到response数据
6.在线解析拿到的response数据
7.找到要获取的信息
四、网络爬虫程序设计
1.数据爬取与采集
用到的库
import json#转换成字符串
import pandas as pd
import requests#对爬取的网站发出请求
import sys#系统库
import xlrd#对爬取的excel进行查取与搜索
import xlwt#进行excel操作
import matplotli