"""
步骤:
1 指定URL
2 发起请求
3 获取响应数据
4 持久化存储
案例1:网页采集器
反反爬虫方法:
UA伪装 user-agent请求载体身份标识:1 浏览器 2 爬虫
门户网站的服务器会检测对应请求的载体身份标识,如果不是浏览器,则表示该请求为不正常的请求
UA就是伪装成浏览器
"""
import requests
if __name__=="__main__":
#ua伪装。在 开发者工具-network-headers 中找请求头
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'
}
url = 'https://www.sogou.com/web'
#处理url携带的参数,封装到字典中
keyword = input("录入你要搜索的关键词:")
param = {
'query': keyword
}
response = requests.get(url= url,params=param,headers=headers)
page_text = response.text
# print(page_text)
fileName = keyword+'.html'
with open("./"+fileName,'w',encoding='utf-8')as fp:
fp.write(page_text)
print("爬取数据完毕")