requests - 简易网页采集器

该博客介绍了如何使用Python的requests库来伪装UA并爬取搜狗搜索引擎的特定关键词搜索结果。用户输入关键词后,程序构造URL,发起GET请求,并将返回的HTML内容保存为.html文件。此过程涉及网络请求、参数传递及文件保存操作。
摘要由CSDN通过智能技术生成

requests - 简易网页采集器

  • 需求:爬取搜狗指定词条对应的搜索结果页面
  • 思路分析:
  • 打开搜狗搜索,输入关键词:爬虫,打开网页搜狗搜索-爬虫,这个页面就是需要采集的内容了。
  • 步骤:
  • 1、导入模块
  • 2、指定url
  • 3、发送请求,获取数据
  • 4、保存数据

首先做一下UA伪装(将爬虫装成浏览器),打开网页,右键检查,找到network,随便点击一个加载的内容,在headers中找到user-agent,复制一下,封装到字典里。

观察当前页面的url,发现是由域名+对应请求的参数query构成的。将query参数封装到字典中。

携带参数发起请求,获取数据之后,保存文件,完毕!

// An highlighted block
#1.导入模块
import requests
#UA伪装
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
}
#2.指定url
#url = 'https://www.sogou.com/web?query=%E7%88%AC%E8%99%AB'后面的query是参数,将它封装到字典中
keyword = input("请输入搜索关键词:")
param = {
    'query': 'keyword'
}
url = 'https://www.sogou.com'
#3.携带参数发起请求,获得数据
response = requests.get(url, params=param, headers=headers)
#print(response.text) 看一下是否有数据
#4.保存文件

filename = keyword + '.html' #文件名命名
with open(filename, 'w', encoding='utf-8') as fp:
    fp.write(response.text)
print(keyword + "保存成功") #给一个输出响应

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值