04 - 一、requests模块First

一、requests模块First

1. urllib模块(不常用,我们主要用requests)

  • 用于操作网页 URL,并对网页的内容进行抓取处理。包含以下几个模块

    1. urllib.request - 打开和读取 URL。
    2. urllib.error - 包含 urllib.request 抛出的异常。
    3. urllib.parse - 解析 URL。
    4. urllib.robotparser - 解析 robots.txt 文件。

2.requests模块

(1)Python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。

(2)作用:模拟浏览器发请求。

(3)如何使用?(requests模块的编码流程)

因为requests模块的作用是模拟浏览器发请求 ,所以在使用requests模块时要严格遵从浏览器发送请求的一个流程(要“学”浏览器发送请求)
  1. 指定url(确定地址)
  2. 对指定的url发起请求
  3. 获取响应数据
  4. 持久化存储响应的数据

(4)配置环境

# 先配置环境
pip install requests # 安装requests模块(命令行 选好环境)
# 也可以在pycharm直接安装,如下:

请添加图片描述

请添加图片描述

(5)实战编程

a. 需求
  • 爬取搜狗首页的页面数据
b.实战
  • 代码如下:
import requests
# 1 指定url
url = 'https://www.sogou.com/'
# 2 发起请求
# get方法会返回一个响应对象,这里用变量response接收
response = requests.get(url)
# 3 获取响应数据,text返回的是字符串形式的响应数据
page_html = response.text
# 4 持久化存储
with open('./sogou.html','w',encoding='utf-8') as file_sogou:
    file_sogou.write(page_html)
print('信息采集完毕')
  • 请添加图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值