不懂Web基本原理怎么能学好爬虫。（一、 Web网站运行基本原理）（爬虫、反爬虫、服务器、客户端、网络协议、）

骑摩托的蜗牛

已于 2022-06-04 06:41:50 修改

阅读量297

点赞数

分类专栏：不懂Web原理怎么学好爬虫文章标签：前端爬虫网络协议 http python

于 2022-05-16 20:18:09 首次发布

本文链接：https://blog.csdn.net/m0_58859743/article/details/124797711

版权

不懂Web原理怎么学好爬虫专栏收录该内容

5 篇文章 2 订阅

订阅专栏

前言

爬虫的主要目的是获取Web网站中的内容。想要爬虫获取数据，就需要了解HTML从文档变成内容丰富的页面所要经历的每个阶段。例如网络请求、资源匹配、数据传输和页面渲染。要想学好爬虫，我们需要先了解web网站的构成和页面渲染过程的相关知识。

一、Web网站的基本构成

服务器：主要负责为客户端提供文件资源的提取与数据的保存服务。

客户端：则是将服务器的资源转化为用户可读的内容。

网络协议：服务器端与客户端之间的信息交互需要通过网络进行传输，而网络传输会根据对应的网络协议进行。

最常见的Web服务器有Apache、IIS等，常用的浏览器有IE、Firefox、chrome等。当你想访问一个网页时，需要在浏览器的地址栏中输入该网页的URL（Uniform Resource Locator，简称为URL）地址，或者是通过超链接链接到该网页。浏览器会向该网页所在的服务器发送一个HTTP请求，服务器会对接收到的请求信息进行处理，然后将处理的结果返回给浏览器，最终将浏览器处理后的结果呈现给用户。

#学习爬虫仅仅了解这些是不够的
#虽然我们不需要对服务器、客户端、网络协议透彻的掌握，但也需要针对爬虫的特点做相应的学习
#这样才能在遇到问题时更为容易的找到正确解决问题的方向，而不是盲目的百度
#后续章节我们会结合爬虫工作特点，逐一对服务器、客户端、网络协议进行梳理

骑摩托的蜗牛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
不懂Web基本原理怎么能学好爬虫。（一、 Web网站运行基本原理）（爬虫、反爬虫、服务器、客户端、网络协议、）

爬虫的主要目的是获取Web网站中的内容。想要爬虫获取数据，就需要了解HTML从文档变成内容丰富的页面所要经历的每个阶段。例如网络请求、资源匹配、数据传输和页面渲染。要想学好爬虫，我们需要先了解web网站的构成和页面渲染过程的相关知识。（爬虫、反爬虫、服务器、客户端、网络协议、）...
复制链接

扫一扫