目录
爬虫概述
概念:网络爬虫也叫网络蜘蛛,特指一类自动批量下载网络资源的程序,这是一个比较口语化的定义。 更加专业和全面对的定义是:网络爬虫是伪装成客户端与服务端进行数据交互的程序。
作用:数据采集,搜索引擎,模拟操作。
分类:通用爬虫:搜索引擎的重要组成成分。
聚焦爬虫:建立在通用爬虫的基础上,抓取页面当中指定的数据。
网络协议
robots协议---君子协议
例:https://www.baidu.com/robots.txt
网络架构
-
c/s 即 client server --- 客户端与服务端
-
b/s 即 browser server --- 浏览器与服务端
-
m/s 即 mobile server --- 移动端与服务端
HTTP协议
计算机之间也是需要一种规则,保障之间信息的有效交流,这就是HTTP协议。
http和https的概念
http:HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW: World Wide Web )服务器传输超文本到本地浏览器的传送协议。是以明文的方式在网络当中传递数据。目前互连网上90%的网络传输都是基于http协议。
https:HTTPS(全称:Hypertext Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。即HTTP下加入SSL层。
http和https的特点
HTTP协议 80
-
简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。
-
灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。
-
无连接:限制每次连接只处理一个请求。服务器处理完客户的请求并收到客户的应答后,立即断开。
HTTPS 协议 443
-
内容加密建立一个信息安全通道,来保证数据传输的安全。
-
身份认证确认网站的真实性。
-
数据完整性防止内容被第三方冒充或者篡改。
HTTP_URL
HTTP使用URI(统一资源标识符)来传输数据和建立连接。
-
协议部分:“http:”,在HTTP后面的“//”为分隔符
-
域名部分:“www.aspxfans.com”
-
端口部分:跟在域名后面的是端口,8080,域