第1章-爬虫简介
一、通讯协议
每一个应用程序都有一个独立的标识–端口(逻辑端口号)
HTTP:超文本传输协议,默认端口80
二、网络模型
https=http+ssl,默认端口443
SSL:(Secure Socket Layer,安全套接字层),为Netscape所研发,用以保障在Internet上数据传输之安全,利用数据加密(Encryption)技术,可确保数据在网络上之传输过程中不会被截取。它已被广泛地用于Web浏览器与服务器之间的身份认证和加密数据传输。
三、Http请求与响应
3.1 Http通信
- 当⽤户在浏览器的地址栏中输⼊⼀个URL并按回⻋键之后,浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get”和“Post”两种⽅法。
- 当我们在浏览器输⼊URL http://www.baidu.com 的时候,浏览器发送⼀个Request请求去获取 http://www.baidu.com 的html⽂件(即网页源码),服务器把Response⽂件对象发送回给浏览器。
- 浏览器分析Response中的 HTML,发现其中引⽤了很多其他⽂件,⽐如Images⽂件,CSS⽂件,JS⽂件。 浏览器会⾃动再次发送Request去获取图⽚,CSS⽂件,或者JS⽂件。
- 当所有的⽂件都下载成功后,⽹⻚会根据HTML语法结构,完整的显示出来了。
3.2 Http请求
HTTP