《python3网络爬虫开发实战》笔记
一、请求方法
method | 描述 |
---|---|
GET | 请求页面,返回页面内容,数据在URL中体现,最大请求为1024字节 |
HEAD | 获取报头,不返回具体内容 |
POST | 表单或上传文件,数据在请求体中,请求大小不限 |
PUT | 从客户端向服务器传送的数据取代指定文档中的内容 |
DELETE | 请求服务器删除页面 |
CONNECT | 让服务器替客户端访问其他网页 |
OPTIONS | 允许客户端查看服务器的性能 |
TRACE | 回显服务器收到的请求,主要用于测试或诊断 |
二、 请求头 request header
- Accept :请求报头域,用于指定客户端可接受哪些类型的信息
- Accept-Language:指定客户端可接受的语言类型 。
- Accept-Encoding:指定客户端可接受的内容编码
- Host:用于指定请求资源的主机 IP 和端口号,其内容为请求 URL 的原始服务器或网关的位置。 从HTTP1.1版本开始,请求必须包含此内容。
- Cookie:辨别用户进行会话跟踪而存储在用户本地的数据 。 它的主要功能是维持当前访问会话 。
- Referer:此内容用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理,如做来源统计、防盗链处理等 。
- User-Agent:简称 UA,它是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本 、 浏览器及版本等信息 。 在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被识别州为爬虫 。
- Content-Type:也叫互联网媒体类型( Internet Media Type )或者 MIME类型,在 HTTP协议消息头中,它用来表示具体请求中的媒体类型信息 。 例如, text/html 代表 HTML 格式,image/gif代表 GIF 图片, application/json代表 JSON类型,更多对应关系可以查看此对照表 : http://tool.oschina.net/commons。
三、请求体
请求体一般承载的内容是 POST请求中的表单数据,而对于 GET请求,请求体则为空 。
Content-Type | 提交数据的方式 |
---|---|
application/x-www-form-urlencoded | 表单数据 |
multipart/form-data | 表单文件上传 |
application | 序列化JSON数据 |
text/xml | XML数据 |