前言
爬虫的主要目的是获取Web网站中的内容。想要爬虫获取数据,就需要了解HTML从文档变成内容丰富的页面所要经历的每个阶段。例如网络请求、资源匹配、数据传输和页面渲染。要想学好爬虫,我们需要先了解web网站的构成和页面渲染过程的相关知识。
一、Web网站的基本构成
服务器:主要负责为客户端提供文件资源的提取与数据的保存服务。
客户端:则是将服务器的资源转化为用户可读的内容。
网络协议:服务器端与客户端之间的信息交互需要通过网络进行传输,而网络传输会根据对应的网络协议进行。
最常见的Web服务器有Apache、IIS等,常用的浏览器有IE、Firefox、chrome等。当你想访问一个网页时,需要在浏览器的地址栏中输入该网页的URL(Uniform Resource Locator,简称为URL)地址,或者是通过超链接链接到该网页。浏览器会向该网页所在的服务器发送一个HTTP请求,服务器会对接收到的请求信息进行处理,然后将处理的结果返回给浏览器,最终将浏览器处理后的结果呈现给用户。
#学习爬虫仅仅了解这些是不够的
#虽然我们不需要对服务器、客户端、网络协议透彻的掌握,但也需要针对爬虫的特点做相应的学习
#这样才能在遇到问题时更为容易的找到正确解决问题的方向,而不是盲目的百度
#后续章节我们会结合爬虫工作特点,逐一对服务器、客户端、网络协议进行梳理