HTTP 相关的概念

浏览器

一个HTTP协议的请求方,使用HTTP协议获取网络上的各种资源。

Web服务器

HTTP协议的应答方,提供Web服务的,它是HTTP协议里响应请求的主体。

硬件,就是物理形式或“云”形式的机器,在大多数情况下它可能不是一台服务器,而是利用反向代理、负载均衡等技术组成的庞大集群。

软件含义的Web服务器可能我们更为关心,它就是提供Web服务的应用程序,通过会运行在硬件含义的服务器上。像Tomcat、Node.js、Apache、Nginx、IIS、Jetty等等。

CDN

CDN,全称是“Content Delivery Network”,翻译过来就是“内容分发网络”。它应用了HTTP协议里的缓存和代理技术,代替源站响应客户端的请求。

CDN的好处,就是可以缓存源站的数据,让浏览器的请求不用“千里迢迢”地到达源站服务器,直接在“半路”就可以获取响应。如果CDN的调度算法很优秀,更可以找到离用户最近的节点,大幅缩短响应时间。

爬虫

前面说到过浏览器,它是一种用户代理,代替我们访问互联网。

但HTTP协议并没有规定用户代理后面必须是“真正的人类”,它也完全可以是“机器人”,这些“机器人”的正式名称就叫做“爬虫”(Crawler),实际上是一种可以自动访问Web资源的应用程序。

爬虫是怎么来的?

绝大多数是由各大搜索引擎“放”出来的,抓取网页存入庞大的数据库,再建立关键字索引,这样我们才能够在搜索引擎中快速地搜索到互联网角落里的页面。

爬虫也有不好的一面,它会过度消耗网络资源 ,占用服务器的带宽,所以就有一项“君子协定”robots.txt,约定哪些该爬,哪些不该爬。

小结

  1. 互联网上绝大部分资源都使用HTTP协议传输;
  2. 浏览器是HTTP协议里的请求方,即User Agent;
  3. 服务器是HTTP协议里的应答方,常用的有Apache和Nginx;
  4. CDN位于浏览器和服务器之间,主要起到缓存加速的作用;
  5. 爬虫是另一类User Agent,是自动访问网络资源的程序。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值