04 - 一、requests模块First

郑师傅炒板栗

已于 2022-09-21 17:42:17 修改

阅读量641

点赞数

分类专栏： python 爬虫文章标签： python pycharm 爬虫

于 2022-01-26 23:37:42 首次发布

本文链接：https://blog.csdn.net/weixin_43306271/article/details/122710442

版权

python 爬虫专栏收录该内容

12 篇文章 1 订阅

订阅专栏

一、requests模块First

1. urllib模块（不常用，我们主要用requests）

用于操作网页 URL，并对网页的内容进行抓取处理。包含以下几个模块
1. urllib.request - 打开和读取 URL。
2. urllib.error - 包含 urllib.request 抛出的异常。
3. urllib.parse - 解析 URL。
4. urllib.robotparser - 解析 robots.txt 文件。

2.requests模块

（1）Python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。

（2）作用：模拟浏览器发请求。

（3）如何使用？（requests模块的编码流程）

因为requests模块的作用是模拟浏览器发请求 ，所以在使用requests模块时要严格遵从浏览器发送请求的一个流程（要“学”浏览器发送请求）

指定url(确定地址)
对指定的url发起请求
获取响应数据
持久化存储响应的数据

（4）配置环境

# 先配置环境
pip install requests # 安装requests模块（命令行 选好环境）
# 也可以在pycharm直接安装，如下：

请添加图片描述

（5）实战编程

a. 需求

爬取搜狗首页的页面数据

b.实战

代码如下：

import requests
# 1 指定url
url = 'https://www.sogou.com/'
# 2 发起请求
# get方法会返回一个响应对象，这里用变量response接收
response = requests.get(url)
# 3 获取响应数据，text返回的是字符串形式的响应数据
page_html = response.text
# 4 持久化存储
with open('./sogou.html','w',encoding='utf-8') as file_sogou:
    file_sogou.write(page_html)
print('信息采集完毕')

郑师傅炒板栗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
04 - 一、requests模块First

一、requests模块First1. urllib模块（不常用，我们主要用requests）用于操作网页 URL，并对网页的内容进行抓取处理。包含以下几个模块urllib.request - 打开和读取 URL。urllib.error - 包含 urllib.request 抛出的异常。urllib.parse - 解析 URL。urllib.robotparser - 解析 robots.txt 文件。2.requests模块（1）Python中原生的一款基于网络请求的模块
复制链接

扫一扫