计算机网络基础知识

目录

计算机之间的连接方式

网线直连(交叉线)

同轴电缆

集线器

网桥

前言

举例(计算机6向计算机7相互通信)

交换机

交换机原理

路由器

路由器与其他设备区别:

注意:

举例:以计算机0向计算机3发送数据为例

防火墙

防火墙分类

防火墙策略

防火墙出入站规则

路由

路由表

浮动路由

静态路由

需求:计算机0向计算机2发送数据

动态路由

动态路由协议

静态路由与动态路由之间的比较

路由协议分类

路由表特殊案例

路由器工作原理

网络基础知识 

计算机网络架构

因特网的组成

ISP

网络的分类

上网方式

1.电话线入户

2.光纤入户

3.网线入户

家用无线路由器的逻辑结构

通信基础

广播域与冲突域

生成树协议

NAT协议

NAT协议特点

NAT的实现方式

SNAT协议

DNAT协议

代理服务器

特点

正向代理与反向代理

正向代理作用:

反向代理作用:

内网穿透

架构图:

CDN

前言

使用CDN请求流程

cdn的分发流程

VPN

前言

VPN案例

网络爬虫

网络爬虫原理 

网络爬虫之搜索引擎

robots.txt

计算机之间的连接方式

网线直连(交叉线)

注意:两台计算机分别设置同一网段的IP地址,后打开一个计算机的命令行界面,通过ping另外一台计算机的方式来检测双方计算机之间的连通性。

同轴电缆

注意:

  • 同轴电缆中处于同一网段的设备之间可以相互通信
  • 同轴电缆两边分别有个电阻,叫做终结电阻
  • 终结电阻的作用:防止数据的回流叠加
  • 同轴电缆的通信方式为半双工通信(一个通道同一时间只允许一个方向进行数据发送)
  • 同轴电缆的使用容易出现数据冲突
  • 不安全:在同轴电缆中若一个设备向另一个设备发送信息,那么数据将会在整个同轴电缆中传播,该数据容易被其他电脑设备抓包捕获
  • 同轴电缆中间若断了,那么整个网络就会瘫了(没有终结电阻,容易出现数据回流)

集线器

含义:集线器的英文称为“Hub”。集线器的主要功能是对接收到的信号进行再生整形放大,以扩大网络的传输距离,同时把所有节点集中在以它为中心的节点上。它工作于OSI参考模型第一层,即“物理层”。集线器与网卡、网线等传输介质一样,属于局域网中的基础设备,采用CSMA/CD(即带冲突检测的载波监听多路访问技术)介质访问控制机制。集线器每个接口简单的收发比特,收到1就转发1,收到0就转发0,不进行碰撞检测。

注意:

  • 集线器中处于同一网段的设备之间可以相互通信
  • 集线器和同轴电缆唯一的区别就是若连接集线器中的一个设备断了,那么不会影响到其他设备之间的通信

网桥

前言

若集线器连接了1000台设备,若集线器中的一台设备想给另外一台设备发消息,那么一开始的arp广播将会发给1000台设备,若该设备通过arp已经直到了对方的mac地址,此时发数据又得发给1000台设备,但最终只有目标设备接收到此消息,其他设备都将此消息丢弃,那么很长时间都会占用带宽。

含义:网桥是根据物理地址过滤和转发数据包的连接设备,它工作于OSI 模型的数据链路层(对应于TCP/IP 网络的网络访问层)。

举例(计算机6向计算机7相互通信)

首先计算机6不知道计算机7的mac地址,那么会通过计算机7的ip地址来发送arp广播,当该arp广播经过网桥时,网桥便记录了左边接口的计算机6的mac地址,但是网桥此时并不清楚计算机7的mac地址是什么,在那个接口,就会导致该arp广播在整个网段中的所有设备之间进行传播,此时只有计算机7得到该报文没将该报文丢掉,计算机7开始对计算机6进行回应,目标mac地址为计算机6的mac地址,向整个网段的所有设备进行广播,当该报文经过网桥时,网桥记录计算机7的mac地址在左边的接口,并且发现该报文的目标mac地址在自己的左边接口,那么就会阻断该报文流向右边接口,最终计算机6得到报文

注意:

  • 网桥中处于同一网段的设备之间可以相互通信
  • 网桥相对于集线器能够通过自己学习来得知每个接口那侧的所有mac地址,进而阻止了无意义的数据传送,隔绝了冲突域

交换机

含义:(switch)意为开关是一种用于光电信号转发的网络设备,他的主要作用是把数据包发送到正确的位置。

交换机原理

交换机根据数据包中的目标mac地址直接找到她所对应的物理端口,一台交换机有很多端口,他们都有自己的编号,计算机的网卡通过网线连接到交换机的端口上,这个端口就是一个确定的物理位置,如果知道某个网卡的mac地址我们就能正确的将数据包发送给他,所以在交换机中维护着一张端口与mac地址的映射关系表(mac地址表),想要与某个mac地址通讯时只需要查询一下这个mac地址在哪个端口上然后从对应的端口发送出去即可。

当交换机收到发来的数据帧后查看帧头部,首先查看源MAC地址有没有记录在自己的MAC表中,如果表中没有,那么记录;继续查看目标MAC地址,如果没有,就直接从除了自己以外的所有接口群发(广播),只有是此MAC地址的计算机做出回应给交换机,其他计算机丢弃。交换机后发现目标mac地址对应在1号端口上,那么将此mac地址记录在mac表中,直接从1号口进行转发出去。

注意:

  • 交换机中处于同一网段的设备之间可以相互通信
  • 交换机类似于接口更多的网桥
  • 交换机比集线器更安全

路由器

前言:若全球的计算机都用交换机相互连接,那么,由于交换机所连接的设备处于同一网段,那么就会出现广播风暴,后果不堪设想

含义:连接两个或多个网络的硬件设备,在网络间起着网关的作用,是读取每一个数据包中的地址然后决定如何传送的专用智能性网络设备。

路由器与其他设备区别:

  • 网线直连、同轴电缆、集线器、网桥、交换机等设备连接的设备必须处于同一网段,而路由器所连接的设备可以处于不同网段
  • 路由器可以隔绝广播域(左边的广播不会发到右边)

注意:

  • 主机发数据之前,首先判断目标主机的IP地址跟我是否在同一网段,若在同一网段,则主机会直接发起arp广播来获取对方的mac地址,进而进行数据传输;若不在同一网段,则会通过路由器转发数据(通过arp获得网关的mac地址,进而通过网关进行转发)
  • 路由器左右两边分别分割着不同的网段,一个设备若想要跨网段进行通信,那么就需要通过路由器网关;路由器一般有2个网关,一个网关对应着一个网段;路由器发数据会看数据的目的IP地址为那个网段,进而将该数据从那个网段所对应的接口发出;一般来说网关所有的ip地址为除广播地址或网段地址的任意一个IP地址,通常习惯用该网段的第一个IP地址作为网关
  • 路由器的每个接口都对应着自己的mac地址与IP地址

举例:以计算机0向计算机3发送数据为例

计算机0端口201要向计算机3端口301发送消息,首先要通过arp协议获取计算机3的mac地址,因为计算机0和计算机3处于不同的网段,所以计算机0将会通过arp获得网关左接口mac地址(因为设的网关为左接口)进而补充IP数据包并将数据帧发送到网关左接口(源mac:计算机0mac,目标mac:网关左接口mac;源ip:192.168.1.10,目标ip:192.168.2.11;源端口:201,目标端口301);路由器收到数据包之后查看目的ip在自己的右接口进而将自己右接口mac作为源mac,并查询arp缓存,没有则通过arp报文获得计算机3的mac地址后将其作为目标mac补充IP数据包并将数据帧发送到计算机3(源mac:网关右接口mac,目标mac:计算机3mac;源IP:192.168.1.10,目标IP:192.169.2.11;源端口:201,目标端口:301),计算机3收到报文后响应给网关(源mac:计算机3mac,目标mac:网关右接口mac;源ip:192.168.2.11,目标ip:192.168.1.10;源端口:301,目标端口201),网关收到数据后将结果响应给计算机0(源mac:网关左接口mac,目标mac:计算机0mac;源ip:192.168.2.11,目标ip:192.168.1.10;源端口:301,目标端口201)

注意:

  • 上面举例中,每个设备内都没有arp缓存,进而每次获取到mac地址与ip地址映射后都会自动将映射信息保存到各自设备的arp表中。
  • IP地址是三层寻址,MAC地址是二层寻址。
  • 在发送过程或接受过程中源IP地址与目标IP地址始终不做改变(除非遇到nat协议)
  • 当目标设备回包时会把源IP与目标IP进行对换;源端口与目标端口进行对换;
  • 每种设备只是在自己特定的层内工作。

防火墙

理解:防火墙技术主要是通过有机结合各类用于安全管理与筛选的软件或硬件设备,体现形式采用规则的方式,从而帮助计算机网络于其内、外网之间构建一道相对隔绝的保护屏障。

防火墙分类

  • 软件防火墙(windows defender、linux iptables、linux firewalld)
  • 硬件防火墙(Cisco ASA、华为USG、启明星辰(天清汉马)、深信服(AF)、安恒(明御安全网关)

防火墙策略

含义:按照一定的规则,对流量进行检测和策略,包过滤(第三和第四的流量,基于数据包的五元组)

注意:

  • 防火墙本质是控制和防护,主要工作原理是通过设置安全策略来进行防护
  • 防火墙的主要应用为对跨防火墙的互联网(内网和外网)进行控制、对设备本身的访问控制

防火墙出入站规则

  • 防火墙入站规则规定了外来的流量来访问本机所要遵循的规则
  • 防火墙出站规则规定了本机程序访问外部网络所要遵循的规则

路由

前言:

  • 在不同网段之间转发数据需要有路由器支持的,默认情况下,路由器只知道跟他直连的网段,非直连的网段需要通过静态路由、动态路由告诉他
  • 路由器内部维护着一张路由表,用来记录各个路由之间的数据传递方向

路由:跨越从原主机到目标主机的一个互联网络来转发数据包的过程(路由器为IP包选择路径的过程) 

路由表

含义:各路由之间相互跳转的依据。

路由器的接口配好并开启之后,那么在路由表里面就会形成与配好接口对应的的路由条目

目的网络路由协议优先级下一跳
路由器右接口对应的网段直连管理距离值路由器右接口
路由器左接口对应的网段直连管理距离值路由器左接口

理解:当发送的IP数据包目的IP在路由器右接口对应的网段,那么IP数据包就会从路由器右接口发出,当发送的IP数据包目的IP在路由器左接口对应的网段,那么IP数据包就会从路由器左接口发出。

注意:

  • 路由表与交换机不同,路由器不会自动学习路由条目填充路由表,路由条目需要人为的配上去
  • 路由器为数据包选择路径的唯一依据就是路由表,路由器表里面有对应的路由条目就转发数据,没有对应的路由条目则丢弃数据

浮动路由

  • 路由条目是有优先级的,并且路由条目的优先级与管理距离值成反比
  • 这里的管理距离值我们可以配置
  • 我们通常将配置精确的路由数据管理距离值设小,配置不精确的管理距离值设大
  • 一般情况下默认路由的管理距离值无穷大(默认路由也可以设置管理距离值用来做两个无穷大之间的比较
  • 通过路由条目的优先级我们可以设置浮动路由来保证网络的可靠性(一条路由线路断掉,那么优先级低的路由线路生效)

静态路由

前言:

  • 当多个路由器相连多个网段时就需要手动配置路由条目,也就是静态路由
  • 下一跳:路由的下一个点,若路由器没有直接连接到目的网络,它会有一个提供下一跳路由的邻居路由器,用来传递数据到目的地。
  • 路由器下一跳的IP地址必须和路由器端口的IP地址在同一网段
  • 路由器与下一跳的关系类似于计算机与网关的关系

需求:计算机0向计算机2发送数据

注意:路由器0和路由器1中互相连接的serial接口(串口)必须在同一个网段,主要用于路由器之间的跳转

理解:网络地址下面的框就是记录所谓的路由表,其中193.169.2.0/24 via 194.170.1.2代表当自己请求的目标主机在193.169.1.0/24网段时,那么自己的请求将会路由到194.170.1.2地址中,而静态路由上面的3个选框就是为了添加路由表信息(路由器0请求193.169.2.0/24这个网段时的下一跳是194.170.1.2)

动态路由

含义:路由器通过路由选择协议(RIP,OSPF)自动获取路由信息

理解:路由器通过动态路由协议就可以识别自己的网络路径的走法,首先,每个路由器都知道跟自己直连的网段有哪些,若需要了解自己需要走的路径,那么只需要路由之间相互通信即可,询问对方路由有没有自己需要的网段,有则直接将该信息添加到路由表。

动态路由协议

含义:路由器之间用来交换信息的语言。

  • 度量值:跳数、带宽、负载、时延、可靠性、成本(度量值是动态路由协议下,选择路径的一种标准)
  • 收敛:使所有路由表都达到一致状态的过程(当所有的路由器都学习到了所有的路由条目,那么我们称之为收敛完成)

静态路由与动态路由之间的比较

  • 静态路由为静态添加路由表,动态路由为动态添加路由表。
  • 网络中静态路由与动态路由之间相互补充

路由协议分类

  • 距离矢量路由协议:依据从源网络到目标网络所经过的路由器的个数选择路由(RIP、IGRP)
  • 链路状态路由协议:综合考虑从源网络到目标网络的个条路径的情况选择路由(OSPF、IS-IS)

路由表特殊案例

  • 193.169.1.11/32 via 194.170.1.2代表当自己请求的目标主机的IP地址为193.169.1.11时,那么自己的请求将会路由到194.170.1.2地址中。
  • 193.0.0.0/8 via 194.170.1.2代表当自己请求的目标主机的IP地址为193.0.0.0/8的子网段时,那么自己的请求将会路由到194.170.1.2地址中(当然,若有配置精确的路由表数据就先以精确路由表数据为准进行跳转)。
  • 0.0.0.0/0 via 194.170.1.2(默认路由)代表默认情况下只要有电脑主机,那么就直接跳转到194.170.1.2地址中(当然,若有配置精确的路由表数据就先以精确路由表数据为准进行跳转)

路由器工作原理

  1. 一个帧到达路由,路由器首先检查目标mac地址是否是自己的,若不是则丢弃,若是则解封装,并将IP包送到路由器内部
  2. 路由器检查IP包头中的目标IP,并匹配路由表,若匹配失败则丢弃,并向源IP回馈错误信息,若匹配成功则将IP包路由到出接口
  3. 封装帧,首先将出接口的MAC地址作为源MAC封装好,然后检查ARP缓存表,检查是否有下一跳MAC,若有则提取并作为目标MAC地址封装到帧中,若没有则发送arp广播包文获得下一跳的MAC地址后在记录缓存,并将其作为目标MAC封装到帧中,最后将帧发送出去

网络基础知识 

计算机网络架构

  • 网络:网络由若干节点和连接这些节点的链路组成。
  • 互联网:多个网络还可以通过路由器互连起来,这样就构成了一个覆盖范围更大的网络,即互联网
  • 因特网:因特网是世界上最大的互联网

注意:粉色为网络,蓝色为互联网

因特网的组成

  • 边缘部分:由所有连接在因特网上的主机组成。这部分是用户直接使用的,用来进行通信(传送数据,音频或视频)和资源共享
  • 核心部分:由大量网络和连接网络的路由器组成。这部分是为边缘部分提供服务的(提供连通性和交换)

ISP

含义:(Internet Service Provider)Internet服务提供商,比如移动、电信、网通、铁通等

理解:我们的电脑之所以能够连接到Internet,主要是我们使用了Internet服务提供商所提供的服务,Internet服务提供商去铺设网线、光缆、电话线、路由器等,将这些铺设好之后,我们去买他们的服务,他们就能帮助我们将网络连接到世界各地

注意:我们平时拉的宽带都是通过ISP连接到Internet的

网络的分类

  • 广域网:(WAN、万维网、外网)一般范围是几百公里到几千公里,可以覆盖一个国家。通常都需要租用ISP线路
  • 城域网:一个城市的网络,一般是范围数十公里到数百公里,可以覆盖一个城市
  • 局域网:(LAN、内网)一般是范围在几百米到十几公里内的计算机所构成的计算机网络,局域网中使用最广泛的网络技术叫以太网(Ethernet)

上网方式

1.电话线入户

猫:也叫调制解调器,主要作用就是进行数字信号和模拟信号之间的转换

注意:电话线传递的是模拟信号,计算机传递的是数字信号

2.光纤入户

光猫:光调制解调器,主要进行数字信号和光信号之间的转化

3.网线入户

家用无线路由器的逻辑结构

通信基础

在互联网中,若两台机器需要进行通信那么就需要知道对方的ip地址,通过arp协议来知道对方的mac地址;最终根据mac地址(网卡地址),输送数据到网卡,被网卡接收;若网卡发现数据的目标mac地址是自己,就会将数据传递给上一层进行处理;若网卡发现数据的目标mac地址不是自己,就会将数据丢弃,不会传递给上一层进行处理

注意:

  • 计算机中的网卡用来接收网络数据
  • 网卡的内部有mac地址,这个mac地址全球唯一

广播域与冲突域

  • 广播域:广播方式是指一台主机同时向网段中所有的其他计算机发送信息,广播方式会占用大量的资源。广播域是指广播能够到达的网段范围。
  • 冲突域:冲突是指在同一个网段上,同一个时刻只能有一个信号在发送,否则两个信号相互干扰,即发生冲突。冲突会阻止正常帧的发送。冲突域是指能够发生冲突的网段。

生成树协议

前言:为了提高以太网的可靠性(网络中某个链路发生故障不影响正常通信),我们通常会想到增加冗余链路的方式,但是增加冗余链路后会带来一些问题

增加冗余链路产生问题

  • 形成网络环路,造成广播风暴(某计算机发送数据后各交换机之间相互广播闭环)
  • 各主机之间收到重复的广播帧,大量消耗主机资源
  • 交换机的MAC表震荡出错(由于环路广播导致交换表无法判断原主机在哪个口)

生成树协议:以太网交换机使用生成树协议STP,可以在增加冗余链路提高网路可靠性的同时又避免网络环路带来的各种问题

理解:

  • 无论交换机之间怎样物理连接,交换机都能够自动计算并构建出一个逻辑上没有环路的网络,其逻辑拓扑结构必须是树形的(最终生成的树形逻辑拓扑要确保能连通整个网络)
  • 各交换机之间按照生成树协议规定的生成树算法,交互一些参数后(连接方式信息)就可以判断自己应该阻塞自己的那些接口,就可以形成一个逻辑上没有环路的网络
  • 当首次连接交换机或网络拓扑结构发生变化时(有可能是人为改变或故障)交换机都将重新进行生成树计算

pvst协议:每vlan生成树协议,其为stp协议的升级版;每个vlan一棵树,这样确保了每个vlan下没有环路(思科专有协议)

NAT协议

含义:NAT协议是将IP数据报头中的IP地址转换为另外一个IP地址的过程, 主要用于实现私有网络访问公有网络的功能。这种通过使用少量的IP地址代表较多的私有IP地址的方式,将有助于减少IP地址空间的枯竭

在这里插入图片描述

NAT协议特点

  • 可以节约公网IP资源
  • 会隐藏内部的真实IP

NAT的实现方式

  • 静态NAT:手动配置nat映射表,自己配置私网IP所对应的公网IP来进行nat转换(一对一转换)
  • 动态NAT:定义外部地址池,动态随机转换,当有一个私网IP要访问互联网,那么就会自动拿出地址池里面的公网IP来进行对接转换,若再有一个私网IP想要访问外部网络,则会再从地址池中拿出公网IP对接(一对一转换)
  • 网络地址端口转换NAPT(Network Address Port Translation):其是把内部地址映射到外部网络的一个IP地址的不同端口上。

注意:NAPT是使用最普遍的一种转换方式,在HomeGW中也主要使用该方式。它又包含两种转换方式:SNAT和DNAT。

SNAT协议

含义:(source network address translation)源地址转换是内网地址向外访问时,发起访问的内网ip地址转换为指定的ip地址(可指定具体的服务以及相应的端口或端口范围),这可以使内网中使用保留ip地址的主机访问外部网络,即内网的多部主机可以通过一个有效的公网ip地址访问外部网络。

理解:以电脑1向电脑3通信为例

电脑3指定257端口提供服务

当电脑1与电脑3通信时,电脑1开启随机端口(如255)打开连接准备与电脑3建立——(源IP:192.168.1.2,目标IP:30.0.0.2;源端口:255,目标端口:257),因为电脑1的ip为内网ip不能在公网上进行通信,因此到达路由器进行协议地址转换之后路由器将源ip改为自己的公网ip将源端口改为自己的随机端口(如256)——(源IP:30.0.0.1,目标IP:30.0.0.2;源端口:256,目标端口:257)向电脑3发送信息,电脑3收到信息后准备向30.0.0.1地址的256端口进行回复——(源IP:30.0.0.2,目标IP:30.0.0.1;源端口:257,目标端口:256)该地址的路由器收到了回复找到256端口对应的电脑以及对应的端口(192.168.1.2:255)也就是电脑1,将信息发给电脑1,电脑1收到信息后与电脑3断开连接。

DNAT协议

含义:(destination network address translation)目标地址转换,作用是将一组本地内部的地址映射到一组全球地址。

如果我们的内网计算机对外提供服务,则公网上发的请求不能直接到达内网计算机,因此就需要路由器用DNAT技术帮我们转发请求。

例子:192.168.1.10对外提供服务,监听80端口

访问公网(路由器具体的公网地址:221.8.14.91)的8080端口则转到192.168.1.10的80端口,当访问数据包从wan口进入后路由器执行DNAT修改目标ip为192.168.1.10,修改目标端口为80进而把数据包发给了计算机。

代理服务器

特点

  • 代理服务器本身不生产内容 
  • 处于中间位置,用于转发上下游的请求和响应
  • 对于面向下游的客户端来说,他是服务器;对于面向上游的服务器来说他是客户端。

正向代理与反向代理

正向代理:代理的对象是客户端(帮客户端办事情)

正向代理作用:

  • 隐藏客户端身份:客户端的公网IP直接访问服务器,那么服务器就会知道我们的IP地址,若我们通过代理服务器来访问目标服务器,那么目标服务器仅仅知道代理服务器的IP地址
  • 绕过防火墙:有些目标服务器我们访问受限,我们可以通过不受限制的代理服务器来访问目标服务器
  • internet访问控制:通过代理服务器我们可以控制谁可以上网,谁不能上网(例如一台路由器下有多个主机,路由器规定仅有一个主机可以上网,那么其他主机想要上网的或都需要经过那个主机做代理服务器)
  • 数据过滤:通过internet访问控制实现

反向代理:代理的对象是服务器(帮服务器办事情)

反向代理作用:

  • 隐藏服务器身份:客户端仅知道代理服务器IP地址(代理服务器与客户端进行交互)
  • 安全防护:无法直接访问目标服务器进而提升了目标服务器的安全性
  • 负载均衡:若很多主机共同访问同一台服务器,那么这个服务器容易挂,可以通过代理服务器代理多个其他服务器来分发内容来减缓服务器压力,同时,若多个服务器中有一个服务器挂掉还可以继续使用。

理解:正向代理是代理服务器代替系统内部来访问外部网络的过程,反向代理是外部请求访问系统时通过代理服务器转发到内部服务器的过程。

内网穿透

作用:用于外网设备访问内网资源

架构图:

理解:首先准备一台公网IP的服务器,然后在本地开启一个服务,同时该服务与那台服务器进行TCP连接,同时将本地服务所在内网的IP和端口与公网服务器的IP和端口形成映射,那么别人只要访问公网服务器的IP和端口就能直接穿透到本地的内网的IP和端口。

CDN

前言

含义:(Content Delivery Network)内容分发网络,通过在现有的internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络边缘,使用户可以就近取得所需的内容,提高用户访问网站的响应速度。

理解:其利用最靠近每位用户的服务器更快的将音乐、图片、视频等资源文件(一般是静态资源)传递给用户。

注意:

  • CDN运营商在全国、乃至全球的各大枢纽城市都建立了机房,部署了大量拥有高存储、高带宽的节点,构建了一个跨运营商、跨地域的专用网络
  • (源站)内容所有者向CDN运营商支付费用,CDN将其内容交付给最终用户

使用CDN请求流程

理解:如今我想访问资源,首先我们请求DNS服务器来询问自己的域名所对应的IP地址是什么,网站DNS服务器内部是有记录的,他看到我们的域名比较特殊(对应的是CDN服务相关的服务器)没办法直接给我们相应的IP地址,进而请求了CDN的DNS服务器进而CDN的DNS服务器告诉我们IP地址,此时我们拿到的IP地址为CDN全局负载均衡服务器的IP地址,这台服务器根据我们的IP地址来判断那一台节点离我们最近,之后告诉我们去请求那一台的CDN节点,若这台缓存服务器没有我们想要的目标资源,那么缓存服务器便会向源站请求,最终把获取到的内容缓存到缓存服务器,最终把内容发给用户。

cdn的分发流程

push:源服务器把静态内容提前备份给cdn

pull:cdn向源服务器索取相应的静态内容

  • 对于静态内容,源服务器把静态内容提前备份给cdn(push),那么这样在世界各地的用户需要访问网页的时候就近的把静态内容提供给用户,就不需要每次都劳烦服务器,若源服务器没有把静态内容提前备份给cdn那么当用户来访问网页时,cdn就会向原服务器索取相应的静态内容(pull)同时源服务器也可以让cdn备份cdn备份好内容后在提供给用户,因此其他做出请求的用户也可以马上拿到内容了
  • 对于动态内容,有些cdn提供可以运行在cdn上的接口让源服务器用这些cdn的接口,而不是源服务器自己的代码,这样用户便可以直接从cdn上获取动态内容,而不用关心源服务器

cdn的加速:cdn不仅会使用户访问服务器距离变近,加载速度变快,同时在文件层面上也会帮你把文件进行最小化或者压缩文档来提升传输效率

VPN

前言

含义:虚拟专用网(Virtual Private Network,VPN)是一种利用公共网络来构建的专用网络技术。 

核心原理:为了使发送发与接收方可以相互通信,那么两个地方分别配置一个VPN服务器,发送方发送的数据要经过发送方VPN服务器进行加密同时添加IP首部(这个IP首部的原IP为站点1IP,目的IP为站点2IP),之后的数据通过自己的ISP(互联网服务提供商)进入互联网,之后修改加密的数据抵达接收方的VPN服务器后,丢掉IP首部后进行解密,然后再根据原IP首部将数据分配到指定的主机;(发送方与接收方位置可以互相调换)

理解虚拟专线

  • VPN不是真正的专线,但是它却实现了专线的功能,发送的数据与接受的数据被加密,在这其中的数据只有两端联通的人才可以看到,而且它也可以突破路由器内网的限制,实现隧道灵活通信。
  • 私有地址只能用于一个机构的内部通信,而不能用于和因特网中的主机通信,在因特网中的所有路由器对目的地址是私有地址的IP数据报一律不进行转发
  • VPN的两端机构必须各有一个路由器具有公网IP地址用作隧道,这样他们各自的专用网才能利用公网进行隧道通信

VPN案例

以10.1.0.3和10.2.0.3通信为例(前提必须得先连上VPN)

过程:首先10.1.0.3会将待发送数据封装成IP数据报(源地址:10.1.0.3,目标地址:10.2.0.3)发送给路由器R1;R1收到该数据报后发现目的网络必须通过因特网才能到达,于是将该IP数据报进行加密,之后再重新添加一个IP数据报的首部(源地址:125.1.2.3,目标地址:194.4.5.6)封装成为在因特网上发送的外部数据报;路由器R2收到该外部IP的数据报后去掉其首部,再将其数据部分进行解密后恢复成原来的IP数据报,这样就从原首部中提取出源地址和目的地址,进而将数据报发送给10.2.0.3。

网络爬虫

含义:网络爬虫也叫网络蜘蛛,其可以模拟人类使用浏览器操作页面的行为,对页面进行相关操作

网络爬虫原理 

理解:爬虫内部有多线程下载器,其可以开多条线程去爬(下载)网站上的网页,下载完网页后其会将网页上的文本数据和图片数据下载到本地,下载完后其会继续分析该网页上有没有其他稳定的链接;若分析出它下面有新的链接,其就会把分析到的url放到一个队列里面去;这个队列就会不断地取出url来处理,该url又会输送到多线程下载器内,多线程下载器便会根据该url又下载一个网页,如此循环往复。

网络爬虫之搜索引擎

理解:我们在搜索引擎中可以搜索到多个网站,这主要是爬虫在私底下24小时不停的爬数据,当它爬到网页的时候,其就会建立索引进而将数据放到数据库,当用户搜索的时候,其就会用到排名算法去数据库里面查询相关的数据,最终把结果交给用户。

robots.txt

含义:robots.txt是存放在网站根目录下的文本文件,比如https://www.baidu.com/robots.txt

作用:用来告诉爬虫,那些内容是不应该被爬取的,那些是可以被爬取的

注意:

  • 因为一些系统中的url是大小写敏感的,所以robots.txt的文件名应统一为小写
  • 它并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私(只能防君子,不能防小人)

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值