不懂Web基本原理怎么能学好爬虫。(一 、 Web网站运行基本原理)(爬虫、反爬虫、服务器、客户端、网络协议、 )

前言

爬虫的主要目的是获取Web网站中的内容。想要爬虫获取数据,就需要了解HTML从文档变成内容丰富的页面所要经历的每个阶段。例如网络请求、资源匹配、数据传输和页面渲染。要想学好爬虫,我们需要先了解web网站的构成和页面渲染过程的相关知识。


一、Web网站的基本构成

服务器:主要负责为客户端提供文件资源的提取与数据的保存服务。

客户端:则是将服务器的资源转化为用户可读的内容。

网络协议:服务器端与客户端之间的信息交互需要通过网络进行传输,而网络传输会根据对应的网络协议进行。

最常见的Web服务器有Apache、IIS等,常用的浏览器有IE、Firefox、chrome等。当你想访问一个网页时,需要在浏览器的地址栏中输入该网页的URL(Uniform Resource Locator,简称为URL)地址,或者是通过超链接链接到该网页。浏览器会向该网页所在的服务器发送一个HTTP请求,服务器会对接收到的请求信息进行处理,然后将处理的结果返回给浏览器,最终将浏览器处理后的结果呈现给用户。

#学习爬虫仅仅了解这些是不够的
#虽然我们不需要对服务器、客户端、网络协议透彻的掌握,但也需要针对爬虫的特点做相应的学习
#这样才能在遇到问题时更为容易的找到正确解决问题的方向,而不是盲目的百度
#后续章节我们会结合爬虫工作特点,逐一对服务器、客户端、网络协议进行梳理

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值