需求是实现模拟浏览器进行搜索
import requests if __name__ == '__main__': #UA伪装:将对应的User Agent封装到一个字典中 headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4508.400' }
如果我想在浏览器中搜索’我爱你‘这个关键词,点击搜索后注意搜索完毕页面的url为搜狗搜索引擎 - 上网从搜狗开始我爱你&asf=www.sogou.com&ast=&w=01015002&p=40040108&ie=utf8&from=index-nologin&s_from=index&oq=&ri=0&sourceid=sugg&suguuid=&sut=0&sst0=1637032034255&lkt=0%2C0%2C0&sugsuv=007B4EE36F14AE4A618A64F6A09BE806&sugtime=1637032034255。
当我们把后面的乱码删除后发现搜狗搜索引擎 - 上网从搜狗开始我爱你 这个url也可以请求到同样的界面。但是此url仅仅只能请求到关键词’我爱你‘对应界面,若我们把’我爱你‘改为动态值,则可以实现网页采集。
url='https://www.sogou.com/web?'
因此我们将url携带的参数进行封装
param={ 'query':kw }
然后就是对该url发起请求
response=requests.get(url=url,params=param,headers=headers)
注意get请求中页有一个参数为params,专门用来处理url中参数。并不是只有post请求才可以带参数!
下面就是一些常规操作
#获取响应数据 page_text=response.text #存储 fileName=kw+'.html' with open(fileName,'w',encoding='utf-8') as fp: fp.write(page_text) print(fileName,'保存成功')