爬虫基础一

APP一般会自己加密,HTTPS(http+SSL加密),爬虫爬取注意。

客户端发送request给服务器,服务器返回response

REQUEST部分的HTTP HEADER

charset:解码方式,防止乱码

Encoding:有的趴下来是的压缩包

User-Agent:告诉服务器我是什么客户端,伪装成浏览器防止反爬

Cookie:登录用,还有其他作用。

login 返回setcookie,

因为http是无状态连接,client向服务器发送http请求,第一次login,第二次再发,服务器仍然不知道client是谁。

其实在第一次login后,服务器的response返回setcookie,相当于服务端给client分配了一个id号做标识。client之后每次发送时都把cookie加上。

RESPONSE的HTTP HEADER

Location:指明跳转链接

Set-cookie:Userid

statuscode:响应状态码 :2xx-成功,3xx-跳转,4xx-客户端错误,500-服务器错误.

300-多个可用资源,可处理或丢弃;

301-重定向;

302-重定向;

304-请求的资源未更新,丢弃。

python库,如urllib2已对重定向作了自动跳转,自动再发送location的request返回给代码。

 

 

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值