requests-爬取页面源码数据

不会挂科i

已于 2022-07-23 20:30:13 修改

阅读量868

点赞数 1

分类专栏： python爬虫学习笔记文章标签：前端 python javascript

于 2022-07-23 20:11:00 首次发布

本文链接：https://blog.csdn.net/qq_45842943/article/details/125952121

版权

python爬虫学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文介绍了如何利用Python的requests库来爬取搜狗首页的页面源码。首先，通过指定url为'https://www.sogou.com/'发起GET请求，然后获取响应对象并从中提取出页面文本。最后，将爬取到的数据存储到本地文件'sougou.html'中，实现了网页内容的持久化。

摘要由CSDN通过智能技术生成

requests

这是爬虫中一个基于网络请求的模块
作用：模拟浏览器发起请求。
编码流程：
1.指定url
2.发起请求
3.获取响应数据（爬取到的页面源码数据）
4.持久化存储

1 爬取搜狗首页的页面源码数据

import requests

# 指定url
url = 'https://www.sogou.com/'
# 发起请求 get方法的返回值为相应对象
response = requests.get(url=url)
# 获取相应数据
# .text：返回的是字符串类型的响应数据
page_text = response.text
# 持久化存储
with open('./sougou.html', 'w', encoding='utf-8') as fp:
    fp.write(page_text)