Python简单爬虫+excel数据分析（绘制数据图、排序、查找指定数据）

最新推荐文章于 2021-12-17 17:56:50 发布

qq_3148675740

最新推荐文章于 2021-12-17 17:56:50 发布

阅读量5.4k

点赞数 4

文章标签： python

本文链接：https://blog.csdn.net/qq_3148675740/article/details/121731813

版权

本文介绍了一个使用Python网络爬虫抓取最新疫情数据，并通过数据分析库Pandas和Matplotlib对数据进行清洗、绘图和排序的实践过程。数据源来自一点资讯，最终结果以Excel文件的形式保存，便于进一步分析。

摘要由CSDN通过智能技术生成

爬取最新疫情信息

一、选题的背景

为什么要选择此选题？

由于疫情原因的影响，世界各地都因为新型冠状病毒（简称新冠肺炎）而陷入种种危机。因此，对于现存国内的疫情数据我进行了一个爬取和一些数据分析，更加直观的查看出国内现存疫情的情况。

让现在在社会上经常流通的人们加强防范意识，了解现存哪些地区风险较高，出行进行防护。在外出差、走生意的人也更加了解到各地的疫情情况，尽量避免高危地区出行！

数据来源：一点资讯。

网址：24小时滚动播报全国最新疫情 (yidianzixun.com)

二、主题式网络爬虫设计方案

1.主题式网络爬虫名称

Python网络爬虫———现存疫情数据爬取及分析

2.主题式网络爬虫爬取的内容与数据特征分析

爬取现存疫情数据并进行处理

3.主题式网络爬虫设计方案概述

先确定主题，爬取现存疫情数据，设计爬取程序进行爬取，并以excel形式储存，然后利用pandas库进行数据分析和清洗，再利用Matplotlib等库进行图形图像绘制。最后保存数据。使用到的模块：

requests:模拟网络连接，发送请求，获取网页内容

json:第三方库，对爬取的数据编解码

xlrd:第三方库，读取excel文件

xlwt:第三方库，写入excel文件

我们把代码分为几个个模块爬取模块()，存储模块()，分析模块()

三、主题页面的结构特征分析

1.主题页面的结构与特征分析

首页与信息集

2.开发者工具进行抓包

3.获取url

4.获取请求头headers

5.拿到response数据

6.在线解析拿到的response数据

7.找到要获取的信息

四、网络爬虫程序设计

1.数据爬取与采集

用到的库

import json#转换成字符串
import pandas as pd
import requests#对爬取的网站发出请求
import sys#系统库
import xlrd#对爬取的excel进行查取与搜索
import xlwt#进行excel操作
import matplotli

最低0.47元/天解锁文章

qq_3148675740

关注

4
点赞
踩
42

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫