爬虫实现网页采集器

需求是实现模拟浏览器进行搜索

 import requests
 if __name__ == '__main__':
     #UA伪装:将对应的User Agent封装到一个字典中
     headers={
         'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4508.400'
     }

如果我想在浏览器中搜索’我爱你‘这个关键词,点击搜索后注意搜索完毕页面的url为搜狗搜索引擎 - 上网从搜狗开始我爱你&asf=www.sogou.com&ast=&w=01015002&p=40040108&ie=utf8&from=index-nologin&s_from=index&oq=&ri=0&sourceid=sugg&suguuid=&sut=0&sst0=1637032034255&lkt=0%2C0%2C0&sugsuv=007B4EE36F14AE4A618A64F6A09BE806&sugtime=1637032034255。

当我们把后面的乱码删除后发现搜狗搜索引擎 - 上网从搜狗开始我爱你 这个url也可以请求到同样的界面。但是此url仅仅只能请求到关键词’我爱你‘对应界面,若我们把’我爱你‘改为动态值,则可以实现网页采集。

 url='https://www.sogou.com/web?'

因此我们将url携带的参数进行封装

 param={
     'query':kw
 }

然后就是对该url发起请求

 response=requests.get(url=url,params=param,headers=headers)

注意get请求中页有一个参数为params,专门用来处理url中参数。并不是只有post请求才可以带参数!

下面就是一些常规操作

 #获取响应数据
 page_text=response.text
 #存储
 fileName=kw+'.html'
 with open(fileName,'w',encoding='utf-8') as fp:
     fp.write(page_text)
 print(fileName,'保存成功')
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值