在浏览器中发送一个http请求的过程:
1.当用户在浏览器的地址栏中输入一个URL·并按回车键之后,浏览器会向HTTP服务器发送请求,HTTP请求主要分为“get”,“post” 两种方法。
2.当我们在浏览器输入URL的时候,浏览器发送一个request请求去获取URL的html文件,服务器吧request文件对象发送回给浏览器。
3.浏览器分析response中的HTML,发现其中引用了很多其他文件,比如说images文件,css文件,js文件。浏览器会自动在发送request去获取图片,css文件,js文件。
4.当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来了。
URL
URL是Uniform Resource Location的缩写,是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
URL组成部分
scheme://host:port/path/?query-string=xxxxxxx#anchor
scheme:代表的是访问的协议,一般为 http, https 以及ftp等
host:主机名,域名,比如网址www.baidu.com
port : 端口号(http 的默认端口号是 80)
path:查找路径(如果省略,则文档必须位于网站的根目录中)。
query-string:查找字符串,比如http://www.runoob.com/html/html-url.html,后面的/html/html-url.html。
anchor:锚点,后台一般不用管,前端用来做页面定位。
在浏览器中的一个请求,浏览器会对这个请求进行一个编码,除英文字母,数字和部分符号外,其他的全部使用百分号+十六进制码进行编码。
什么是http和https协议
http协议:全称是HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接触HTML页面的方法。服务器端口号是80端口。
https协议:是在http上加密版本,在http下加入了ssl层。服务器端口号是443端口。
常用的请求方法
在http协议中,定义了八种请求方法。最常用的是 get和post请求。
get请求:用于请求访问已被url识别的资源,可以通过url传参给服务器。一般情况下,只是从服务器获取数据数据,并不会对服务器资源产生影响的时候用get请求。
post请求:用于传输信息给服务器。会对服务器资源产生影响的时候会使用post请求。
请求头常见的参数
User-Agent:浏览器名称。这个在网络爬虫中经常会被用到。用来伪装自己,让浏览器以为是浏览器在获取,而不是我们用代码去获取。
Referer: 表明当前这个请求是从哪个url过来的。一般可以用来做反爬虫技术。如果不是从指定页面过来的,那么久不做相关的响应。
常见的HTTP相应的状态码:
200:请求成功,服务器正常返回数据。
301:永久重定向。
302:临时重定向。
400:请求语法有误,服务器无法识别。
401:未授权,未认证。
403:服务器拒绝访问,权限不够。
404:服务器请求网页不存在,未找到对应的资源
500:服务器内部错误
503:服务器忙碌
Chrome抓包工具
Element:当前网页的结构。
console:控制台,一般不会使用。
sources:当前网页由哪些文件组成。
Network:当前网页查看请求(一般headers就够了)。
4708

被折叠的 条评论
为什么被折叠?



