HTTP 相关的概念

最新推荐文章于 2021-08-21 15:21:04 发布

jeikerxiao

最新推荐文章于 2021-08-21 15:21:04 发布

阅读量240

点赞数

分类专栏： Web基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jeikerxiao/article/details/93618883

版权

Web基础专栏收录该内容

13 篇文章 0 订阅

订阅专栏

浏览器

一个HTTP协议的请求方，使用HTTP协议获取网络上的各种资源。

Web服务器

HTTP协议的应答方，提供Web服务的，它是HTTP协议里响应请求的主体。

硬件，就是物理形式或“云”形式的机器，在大多数情况下它可能不是一台服务器，而是利用反向代理、负载均衡等技术组成的庞大集群。

软件含义的Web服务器可能我们更为关心，它就是提供Web服务的应用程序，通过会运行在硬件含义的服务器上。像Tomcat、Node.js、Apache、Nginx、IIS、Jetty等等。

CDN

CDN，全称是“Content Delivery Network”，翻译过来就是“内容分发网络”。它应用了HTTP协议里的缓存和代理技术，代替源站响应客户端的请求。

CDN的好处，就是可以缓存源站的数据，让浏览器的请求不用“千里迢迢”地到达源站服务器，直接在“半路”就可以获取响应。如果CDN的调度算法很优秀，更可以找到离用户最近的节点，大幅缩短响应时间。

爬虫

前面说到过浏览器，它是一种用户代理，代替我们访问互联网。

但HTTP协议并没有规定用户代理后面必须是“真正的人类”，它也完全可以是“机器人”，这些“机器人”的正式名称就叫做“爬虫”(Crawler),实际上是一种可以自动访问Web资源的应用程序。

爬虫是怎么来的？

绝大多数是由各大搜索引擎“放”出来的，抓取网页存入庞大的数据库，再建立关键字索引，这样我们才能够在搜索引擎中快速地搜索到互联网角落里的页面。

爬虫也有不好的一面，它会过度消耗网络资源，占用服务器的带宽，所以就有一项“君子协定”robots.txt，约定哪些该爬，哪些不该爬。

小结

互联网上绝大部分资源都使用HTTP协议传输；
浏览器是HTTP协议里的请求方，即User Agent;
服务器是HTTP协议里的应答方，常用的有Apache和Nginx;
CDN位于浏览器和服务器之间，主要起到缓存加速的作用；
爬虫是另一类User Agent,是自动访问网络资源的程序。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。