爬虫:请求网站并提取数据的自动化程序
浏览器F12的html代码中的信息就是爬取的目标
request到response
- 浏览器发送消息(请求)到服务器,这个过程叫HTTP Request
- 服务器返回浏览器信息,HTTP Response
- 浏览器处理信息,展示
request
常用请求方式 GET、POST,post请求需要构造表单进行请求,数据不会暴露在url中
url统一资源定位符
请求头
HTML、JSON
AJAX——JSON解析
从windows资源管理器中直接复制地址会导致文件写入错误(路径错误)[Errno 22] Invalid argument
import requests response = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif') print(response.content) with open('C:\FeigeDownload\1.gif','wb')as f: f.write(response.content) f.close
import requests
response = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif')
print(response.content)
with open('C:/FeigeDownload/1.gif','wb')as f:
f.write(response.content)
f.close