APP一般会自己加密,HTTPS(http+SSL加密),爬虫爬取注意。
客户端发送request给服务器,服务器返回response
REQUEST部分的HTTP HEADER
charset:解码方式,防止乱码
Encoding:有的趴下来是的压缩包
User-Agent:告诉服务器我是什么客户端,伪装成浏览器防止反爬
Cookie:登录用,还有其他作用。
login 返回setcookie,
因为http是无状态连接,client向服务器发送http请求,第一次login,第二次再发,服务器仍然不知道client是谁。
其实在第一次login后,服务器的response返回setcookie,相当于服务端给client分配了一个id号做标识。client之后每次发送时都把cookie加上。
RESPONSE的HTTP HEADER
Location:指明跳转链接
Set-cookie:Userid
statuscode:响应状态码 :2xx-成功,3xx-跳转,4xx-客户端错误,500-服务器错误.
300-多个可用资源,可处理或丢弃;
301-重定向;
302-重定向;
304-请求的资源未更新,丢弃。
python库,如urllib2已对重定向作了自动跳转,自动再发送location的request返回给代码。