抓包分析是爬虫研发的最基础和关键的步骤。要足够细心和耐心,开发时应采取循序渐进的步骤,并在每个关键环节留有日志输出,方便爬虫问题的问题跟踪与追根溯原。
http协议
http method
- get 查询
- post 更新
- put 上传
- delete 删除
在实际应用中,get post应用的比较多。
status code
1** - 代表服务器已经收到信息,但还没有处理完,将继续。
最原始的ajax请求中,是以判断status code来决定是否该次的ajax异步请求完成,或状态。
2** - 返回状态,一般是代表成功终止,即正常的一次请求完成。
200 - ok
3** - 请求的转移
301 - 永久转移,会在响应头中跟随location这个key,来标志下次该跳转的目标URL地址。
302 - 临时转移
304 - 无更新,从缓存中取数据。4** - 客户端错误
400 - 客户端格式错误
401 - 无权限
403 - 禁止访问
404 - file not found5** - 服务器错误
500 - 服务器端处理中出现异常
http header参数
accept: 客户端可接受的数据类型
text/html 即html的文本
application/xhtml+xml 即xhtml&#x