一、requests模块First
1. urllib模块(不常用,我们主要用requests)
-
用于操作网页 URL,并对网页的内容进行抓取处理。包含以下几个模块
- urllib.request - 打开和读取 URL。
- urllib.error - 包含 urllib.request 抛出的异常。
- urllib.parse - 解析 URL。
- urllib.robotparser - 解析 robots.txt 文件。
2.requests模块
(1)Python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。
(2)作用:模拟浏览器发请求。
(3)如何使用?(requests模块的编码流程)
因为requests模块的作用是模拟浏览器发请求 ,所以在使用requests模块时要严格遵从浏览器发送请求的一个流程(要“学”浏览器发送请求)
- 指定url(确定地址)
- 对指定的url发起请求
- 获取响应数据
- 持久化存储响应的数据
(4)配置环境
# 先配置环境
pip install requests # 安装requests模块(命令行 选好环境)
# 也可以在pycharm直接安装,如下:
(5)实战编程
a. 需求
- 爬取搜狗首页的页面数据
b.实战
- 代码如下:
import requests
# 1 指定url
url = 'https://www.sogou.com/'
# 2 发起请求
# get方法会返回一个响应对象,这里用变量response接收
response = requests.get(url)
# 3 获取响应数据,text返回的是字符串形式的响应数据
page_html = response.text
# 4 持久化存储
with open('./sogou.html','w',encoding='utf-8') as file_sogou:
file_sogou.write(page_html)
print('信息采集完毕')