模拟搜狗框查询爬取页面
-
首先要导入所需的的请求包requests,使用命令导包:
pip install requests
注意:如果你感觉导包很慢,可以使用清华源 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 需要导入的包名,使用清华源可以大大的加快下载的速度。 -
获取要爬取的网页的url
-
为防止反爬机制我们可以在请求头中拿到请求体中模拟浏览器中的User-Agent
代码
完整代码如下:
import requests
query=input("输入一个你喜欢的明星:")
url=f"https://www.sogou.com/web?query={query}"
headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
}
resp=requests.get(url,headers=headers) #处理一个小小的反爬
print(resp.text) #拿到页面源代码