想玩爬虫？你需要知道一些简单的知识（二）（网页）

本文深入解析HTML、CSS、JavaScript在网页开发中的角色与作用，HTML构建网页骨架，CSS赋予其美观，JavaScript实现交互，共同打造生动网页。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

网页可分为三大部分一一HTML、CSS、JavaScript。
把网页比作一个人的话，HTML相当于骨架，JavaScript相当于肌肉，css相当于皮肤，三者结合起来才能形成一个完善的网页。

1.HTML：超文本标记语言，网页包括文字、图片、视频等各种复杂的元素，其基础架构就是HTML。用不同的标签来表示不同类型的数据。各种标签相互排列、嵌套。如下图：
在这里插入图片描述
2.CSS：层叠样式表，“层叠”是指当在 HTML中引用了数个样式文件，并且样式发生冲突时，浏览器能依据层叠顺序处理，“样式”指网页中文字大小颜色、元素间距、排列等格式。
如果做过java web的同学应该不会陌生（我当年被这个搞的心态爆炸），当然有很多优秀的前端框架可以用。在HTML整个框架的基础上，我们为了使页面更加好看，用CSS来美化。

3.JavaScript：JS，一种脚本语言。在网页里可能会看到一些交互和动画效果，如下载进度条、提示框轮播图。这通常就是 JavaScript 的功劳。它主要实现了一种实时、动态、交互的页面功能。

所以说，HTML定义了网页的内容和结构，CSS描述了网页的布局，JS定义了网页的行为。

一个网页的标准形式是 html 标签内嵌套 head和body标签，head内定义网页的配置和引用，body内定义网页的正文。

在HTML中，所有标签定义的内容都是节点，它们构成了一个HTML DOM树。
什么是 DOM？
DOM 是 W3C（万维网联盟）的标准。
DOM 定义了访问 HTML 和 XML 文档的标准：“W3C 文档对象模型（DOM）是中立于平台和语言的接口，它允许程序和脚本动态地访问和更新文档的内容、结构和样式。”

W3C DOM 标准被分为 3 个不同的部分：
1、核心 DOM - 针对任何结构化文档的标准模型
2、XML DOM - 针对 XML 文档的标准模型
3、HTML DOM - 针对 HTML 文档的标准模型

而HTML DOM 是：
HTML 的标准对象模型、HTML 的标准编程接口、W3C 标准

HTML DOM 定义了所有 HTML 元素的对象和属性，以及访问它们的方法。
换言之，HTML DOM 是关于如何获取、修改、添加或删除 HTML 元素的标准。

根据 W3C 的 HTML DOM 标准，HTML 文档中的所有内容都是节点：
1、整个文档是一个文档节点
2、每个 HTML 元素是元素节点
3、HTML 元素内的文本是文本节点
4、每个 HTML 属性是属性节点
5、注释是注释节点
可参考：https://www.w3school.com.cn/htmldom/dom_intro.asp

在网页中我们使用CSS选择器来定位节点，以 # 开头表示选择id，以 . 开头表示选择class，还可根据标签名筛选。各个选择器之间加上空格可以代表嵌套关系。
还有比较常用的选择器是XPath。