HTTP协议和HTTPS协议
- HTTP协议,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法,服务器端口是80端口。
- HTTPS协议是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口是443端口。
URL解析
URL是Uniform Resource Locator的简写,统一资源定位符。
常用的请求方法
在http协议中,定义了八种请求方法。这里介绍两种常用的请求方法,分别是get请求和post请求。
- get请求:一般情况下,只从服务器获取数据下来,并不会对服务器资源产生任何影响的时候会用get请求。
- post请求:想服务器发生送数据、上传文件等,会对服务器资源产生影响时使用post请求。
注:有的网站和服务器为了做反爬虫机制,也经常会不按常理出牌,有可能一个应该用get方法的请求就一定要改成post请求,这个要视情况而定。
请求头常见参数
- .User-Agent:浏览器名称。请求一个网页时,服务器通过这个参数就可以知道这个请求是由那种浏览器发送的,我们要经常设置这个值为一些浏览器的值来伪装我们的爬虫。
- Referer:表名当前这个请求是从那个url传来的。这个职业可以用来做一些反爬虫。如果不是指定页面过来的就不做相关的响应。
- Cookie:HTTP协议是无状态的,也就是同一个人发送两次请求,服务器没有能力知道这两个请求是否来自同一人,这时候就用Cookie来做标识。
常见响应码状态
200:请求正常,服务器正常的返回数据。
301:永久重定向,如访问’www.jingdong.com’时会重定向到’www.jd.com’。
302:临时重定向,如在访问需要登录的页面时,没有登录就会重定向登录页面。
400:请求的url在服务器上找不到。
403:服务器拒绝访问。
500:服务器内部错误。
chorme抓包工具
可以方便查看网络的请求和发送的参数,对这网页‘右键+检查’可以打开