爬虫实现网页采集器

最新推荐文章于 2022-07-10 08:51:29 发布

小邓今天做大做强了吗

最新推荐文章于 2022-07-10 08:51:29 发布

阅读量124

点赞数

分类专栏： python学习文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/qq_44247831/article/details/121362948

版权

python学习专栏收录该内容

34 篇文章 1 订阅

订阅专栏

需求是实现模拟浏览器进行搜索

 import requests
 if __name__ == '__main__':
     #UA伪装：将对应的User Agent封装到一个字典中
     headers={
         'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4508.400'
     }

如果我想在浏览器中搜索’我爱你‘这个关键词，点击搜索后注意搜索完毕页面的url为搜狗搜索引擎 - 上网从搜狗开始我爱你&asf=www.sogou.com&ast=&w=01015002&p=40040108&ie=utf8&from=index-nologin&s_from=index&oq=&ri=0&sourceid=sugg&suguuid=&sut=0&sst0=1637032034255&lkt=0%2C0%2C0&sugsuv=007B4EE36F14AE4A618A64F6A09BE806&sugtime=1637032034255。

当我们把后面的乱码删除后发现搜狗搜索引擎 - 上网从搜狗开始我爱你这个url也可以请求到同样的界面。但是此url仅仅只能请求到关键词’我爱你‘对应界面，若我们把’我爱你‘改为动态值，则可以实现网页采集。

 url='https://www.sogou.com/web?'

因此我们将url携带的参数进行封装

 param={
     'query':kw
 }

然后就是对该url发起请求

 response=requests.get(url=url,params=param,headers=headers)

注意get请求中页有一个参数为params，专门用来处理url中参数。并不是只有post请求才可以带参数！

下面就是一些常规操作

 #获取响应数据
 page_text=response.text
 #存储
 fileName=kw+'.html'
 with open(fileName,'w',encoding='utf-8') as fp:
     fp.write(page_text)
 print(fileName,'保存成功')

小邓今天做大做强了吗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫实现网页采集器

需求是实现模拟浏览器进行搜索import requestsif __name__ == '__main__': #UA伪装：将对应的User Agent封装到一个字典中 headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.38...
复制链接

扫一扫