网络爬虫——疫情数据的采集

最新推荐文章于 2023-08-18 08:57:17 发布

Dija-bl

最新推荐文章于 2023-08-18 08:57:17 发布

阅读量74

点赞数

文章标签：爬虫

本文链接：https://blog.csdn.net/bangbinbing/article/details/128381577

版权

一、网络爬虫

1、网络爬虫的定义

网络爬虫（又称为网络蜘蛛，网络机器人）就是模拟客户端发送网络请求，获取响应数据，一种按照一定的规则，自动地抓取万堆网信息的程序或脚本。

2、网络爬虫的作用

从万维网上获取，我们需要的信息

3、网络爬虫的概念

1）、网络爬虫与浏览器的区别：浏览器是显示数据的，而网络爬虫是用来采集数据的

2）、定义：模拟客户端发送请求获取响应数据，按照一定规则，自动从万维网上获取信息的程序

3）、作用：从万维网上，获取我们需要的信息。

二、requests

1、requests介绍

requests是一个优雅而简单的python HTTP请求库

requests的作用是发送请求获取响应数据

2、requests安装

在终端命令行工具运行这个简单的命令即可

pip install requests

3、requests使用3步骤

1）、导入数据

2）、发送get请求，获取响应

3）、从响应中获取数据

# 1. 导入模块
import requests

# 2.发送请求，获取响应
response = requests.get('http://www.baidu.com')
#print(response)
# 3.获取响应数据
# print(response.encoding)
# response.encoding = 'utf8'
# print(response.text)
print(response.content.decode())

4、response 常见属性

1）、response.text：响应体str类型

2）、response.ecoding：二进制转换字符使用的编码

3）、response.context：响应体bytes类型

5、案例——疫情数据的获取

import requests

response = requests.get('https://motion.baidu.com/activity/yiqing_bigdata/trend?tab=material&source=%E5%85%A8%E5%9B%BD%E7%96%AB%E6%83%85')

print(response.content.decode())

三、BeautifuiSoup库

1、Beautiful Soup介绍

它是一个可以从HTML或者XML文件中提取数据的python库

安装Beautiful Soup 4

pip install bs4

安装lxml

pip install lxml

Dija-bl

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
网络爬虫——疫情数据的采集

网络爬虫（又称为网络蜘蛛，网络机器人）就是模拟客户端发送网络请求，获取响应数据，一种按照一定的规则，自动地抓取万堆网信息的程序或脚本。2）、定义：模拟客户端发送请求获取响应数据，按照一定规则，自动从万维网上获取信息的程序。1）、网络爬虫与浏览器的区别：浏览器是显示数据的，而网络爬虫是用来采集数据的。2）、response.ecoding：二进制转换字符使用的编码。3）、作用：从万维网上，获取我们需要的信息。requests的作用是发送请求获取响应数据。2）、发送get请求，获取响应。
复制链接

扫一扫