Python简单爬虫+excel数据分析(绘制数据图、排序、查找指定数据)

爬取最新疫情信息

目录

爬取最新疫情信息

一、选题的背景

二、主题式网络爬虫设计方案

三、主题页面的结构特征分析

 四、网络爬虫程序设计

五、数据分析


在这里插入图片描述

一、选题的背景

为什么要选择此选题?

由于疫情原因的影响,世界各地都因为新型冠状病毒(简称新冠肺炎)而陷入种种危机。因此,对于现存国内的疫情数据我进行了一个爬取和一些数据分析,更加直观的查看出国内现存疫情的情况。

让现在在社会上经常流通的人们加强防范意识,了解现存哪些地区风险较高,出行进行防护。在外出差、走生意的人也更加了解到各地的疫情情况,尽量避免高危地区出行!

数据来源:一点资讯。

网址:24小时滚动播报全国最新疫情 (yidianzixun.com)

二、主题式网络爬虫设计方案

1.主题式网络爬虫名称

Python网络爬虫———现存疫情数据爬取及分析  

2.主题式网络爬虫爬取的内容与数据特征分析

爬取现存疫情数据并进行处理

3.主题式网络爬虫设计方案概述

先确定主题,爬取现存疫情数据,设计爬取程序进行爬取,并以excel形式储存,然后利用pandas库进行数据分析和清洗,再利用Matplotlib等库进行图形图像绘制。最后保存数据。        使用到的模块:

                requests:模拟网络连接,发送请求,获取网页内容

                json:第三方库,对爬取的数据编解码

                xlrd:第三方库,读取excel文件

                xlwt:第三方库,写入excel文件

我们把代码分为几个个模块爬取模块(),存储模块(),分析模块()

三、主题页面的结构特征分析

1.主题页面的结构与特征分析

首页与信息集

        2.开发者工具进行抓包

 3.获取url

4.获取请求头headers 

 5.拿到response数据

6.在线解析拿到的response数据

 7.找到要获取的信息

 

 四、网络爬虫程序设计

1.数据爬取与采集

用到的库

import json#转换成字符串
import pandas as pd
import requests#对爬取的网站发出请求
import sys#系统库
import xlrd#对爬取的excel进行查取与搜索
import xlwt#进行excel操作
import matplotli
  • 4
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值