【Python爬虫】简易网页采集器

最新推荐文章于 2022-01-14 15:53:36 发布

ZD_012

最新推荐文章于 2022-01-14 15:53:36 发布

阅读量405

点赞数

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/ZD_012/article/details/109036562

版权

需求

爬取搜狗指定词条对应的搜索结果页面。

分析

四大步：指定url —> 发起请求 —> 获取响应数据 —> 持久化存储
我搜索的词条为“哈利波特”，其url为 “https://www.sogou.com/web?query=哈利波特”（这是简洁处理过的，实际后面的一些参数省略了，不影响）。但为了能实现搜索不同的词条，我设置了动态参数kw，将其分装到字典中。当我们使用get方法发出请求时，请求所对应的url的参数就可以用params赋值。

代码

import requests

if __name__ == "__main__":
    # UA伪装：将对应的User-Agent封装到一个字典中
    headers = {
   'User-Agent':

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ZD_012

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Python爬虫】简易网页采集器

需求爬取搜狗指定词条对应的搜索结果页面。分析我搜索的词条为“哈利波特”，其url为 “https://www.sogou.com/web?query=哈利波特”（这是简洁处理过的，实际后面的一些参数省略了，不影响）。但为了能实现搜索不同的词条，我设置了动态参数kw，将其分装到字典中。当我们使用get方法发出请求时，请求所对应的url的参数就可以用params赋值。代码import requestsif __name__ == "__main__": # UA伪装：将对应的User-Ag
复制链接

扫一扫