网络爬虫——疫情数据的采集

一、网络爬虫

1、网络爬虫的定义

网络爬虫(又称为网络蜘蛛,网络机器人)就是模拟客户端发送网络请求,获取响应数据,一种按照一定的规则,自动地抓取万堆网信息的程序或脚本。

2、网络爬虫的作用

从万维网上获取,我们需要的信息

3、网络爬虫的概念

1)、网络爬虫与浏览器的区别:浏览器是显示数据的,而网络爬虫是用来采集数据的

2)、定义:模拟客户端发送请求获取响应数据,按照一定规则,自动从万维网上获取信息的程序

3)、作用:从万维网上,获取我们需要的信息。

二、requests

1、requests介绍

requests是一个优雅而简单的python HTTP请求库

requests的作用是发送请求获取响应数据

2、requests安装

在终端命令行工具运行这个简单的命令即可

pip install requests

3、requests使用3步骤

1)、导入数据

2)、发送get请求,获取响应

3)、从响应中获取数据

# 1. 导入模块
import requests

# 2.发送请求,获取响应
response = requests.get('http://www.baidu.com')
#print(response)
# 3.获取响应数据
# print(response.encoding)
# response.encoding = 'utf8'
# print(response.text)
print(response.content.decode())

4、response 常见属性

1)、response.text:响应体str类型

2)、response.ecoding:二进制转换字符使用的编码

3)、response.context:响应体bytes类型

5、案例——疫情数据的获取

import requests

response = requests.get('https://motion.baidu.com/activity/yiqing_bigdata/trend?tab=material&source=%E5%85%A8%E5%9B%BD%E7%96%AB%E6%83%85')

print(response.content.decode())

三、BeautifuiSoup库

1、Beautiful Soup介绍

它是一个可以从HTML或者XML文件中提取数据的python库

安装Beautiful Soup 4 

pip install bs4

安装lxml 

pip install lxml

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值