爬虫最主要的任务就是获取网站的数据和信息,所以必须先了解网页的基础结构等知识才能有效的获取数据
关于HTML的基础:
1,HTML 是用来描述网页的一种语言:
HTML 指的是超文本标记语言 (Hyper Text Markup Language)
HTML 不是一种编程语言,而是一种标记语言 (markup language)
标记语言是一套标记标签 (markup tag)
HTML 使用标记标签来描述网页
2,HTML 标记标签通常被称为 HTML 标签 (HTML tag)。
HTML 标签是由尖括号包围的关键词,比如
HTML 标签通常是成对出现的,比如 和
标签对中的第一个标签是开始标签,第二个标签是结束标签
开始和结束标签也被称为开放标签和闭合标签
3,HTML 文档 = 网页
HTML 文档也被称为网页,主要有HTML标签组成
Web 浏览器的作用是读取 HTML 文档,并以网页的形式显示出它们。浏览器不会显示 HTML 标签,而是使用标签来解释页面的内容。
例子:
(1)这个网页代码包含了最基本的head标签(用于描述网站信息)和body标签(网页要显示的内容)
(2)在body中包含了,h1的标题标签和p的段落标签
(3)p标签中又包含了超链接a的标签