网页的组成
首先,我们来了解网页的基本组成,网页可以分为三大部分:HTML、CSS和JavaScript。
如果把网页比作一个人的话,HTML相当于骨架,JavaScript相当于肌肉,CSS相当于皮肤,三者结合起来才能形成一个完整的网页。下面我们来介绍一下这三部分的功能。
HTML
HTML是用来描述网页的一种语言,其全称叫做Hyper Text Markup Language,即超文本标记语言。
我们浏览的网页包括文字、按钮、图片和视频等各种复杂的元素,其基础框架就是HTML。不同类型的元素通过不同类型的标签来表示,如图片用img标签表示,视频用video标签表示,段落用p标签表示,它们之间的布局又常通过布局标签div嵌套组合而成,各种标签通过不同的排列和嵌套就可以形成网页的框架。
CSS
虽然HTML定义了网页的结构,但是只有HTML页面的布局并并不美观,为了让网页看起来更好看一些,这里就需要借助CSS了。
CSS,全称叫做Cascading Style Sheets,即层叠样式表。“层叠”是指在HTML中引用了数个样式文件,并且样式发生冲突时,浏览器能依据层叠顺序处理。“样式”指网页中文字的大小、颜色、元素检举、排列等格式。
CSS是目前唯一的网页页面排版样式标准,有了它的帮助,页面才能更加的美观。
JavaScript
JavaScript,简称JS,它是一种脚本语言。HTML和CSS配合使用,提供给用户的只是一种静态信息,缺乏交互性。我们在网页里偶尔会看到一些交互和动画效果,如下载进度条、提示框、轮播图等。这通常就是JavaScript的功劳。它的出现使得用户与信息之间不只是一种浏览与显示的关系,而是实现了一种实时、动态、交互的页面功能。
JavaScript通常也是以单独的文件形式加载的,后缀为js,在HTML中通过script标签即可引入,例如:
<script language="javascript" src="./vue.min.js"></script>
综上所书,HTML定义了网页的内容和结构,CSS描述了网页的布局,JavaScript定义了网页的行为。
节点树及节点间的关系
在HTML中,所有标签定义的内容都是节点,它们构成了一个HTML DOM树。
什么是DOM呢?DOM是W3C(万维网联盟)的标准,其英文全称是Document Object Model,即文档对象模型。它定义了访问HTML和XML文档的标准。
W3C文档对象模型(DOM)是中立于平台和语言的接口,它允许程序和脚本动态地访问和更新文档的内容、结构和样式。
W3C DOM标准被分为3个不同的部分:
- 核心 DDOM-针对任何结构化文档的标准模型
- XML DOM-针对XML文档的标准模型
- HTML DOM-针对HTML文档的标准模型
根据W3C的HTML DOM标准,HTML文档中的所有内容都是节点: - 整个文档是一个文档节点
- 每个HTML元素是元素节点
- HTML元素内的文本是文本节点
- 每个HTML属性是属性节点
- 注释是注释节点
HTML DOM将HTML文档视作树结构,这种结构被称为节点树。通过HTML DOM,树中所有的节点均可以通过JavaScript访问,所有HTML节点元素均可被修改,也可以被创建或删除。
节点树中的节点彼此拥有层级关系。常用父(parent)、子(child)和兄弟(sibling)等术语描述这些关系。父节点拥有子节点,同级子节点被称为兄弟节点。在节点树中,顶端节点称为根(root)。除了根节点之外。每个节点都有父节点,同时可拥有任意数量的子节点或兄弟节点。
参考文档
崔庆才老师的《Python3 网络爬虫开发实战》