爬虫实战
requests实现简易网页采集器
目标:实现输入关键字能爬取某一浏览器页面
关键步骤:
- 指定url,词条封装
- 发起请求,get方法返回响应对象
- 拼接参数,获取响应数据
- 存储数据
代码:
import requests
if __name__ == "__main__":
# url='https://www.sogou.com/web?query=菜菜'
url = 'https://www.sogou.com/web'
# 1.处理url携带的参数:封装到字典中。动态输入搜索关键字
kw=input('enter a word:')
# 将要输入的词条封装到字典中
parm={
'query':kw
}
# 2.(发起请求)对指定的url发起的请求对应url是携带的参数。并且请求过程中处理了参数。
# params是url的参数值(自己输入)。动态拼接参数。
response = requests.get(url=url,params=parm)
# 3.获取响应数据
page_text=response.text
# 4.存储
fileName=kw+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
fp.write(page_text)
print(fileName,"保存成功!")