主要是为了做接口测试,试着自己写爬虫,所以学习一下HTML一些基础的东西,方便用来解析网页。学习内容主要来自菜鸟教程的HTML教程,W3school的HTML
超文本标记语言(英语:HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言
HTML是运行在浏览器上的,由浏览器来解析
对于中文网页需要使用<meta charset="UTF-8">声明编码,否则会出现乱码。有些浏览器(如 360 浏览器)会设置 GBK 为默认编码,则你需要设置为 <meta charset="gbk">。
HTML文档的后缀名可以用.htm和.html,两种没啥区别都可以用
HTML文档也叫做web页面
HTML标签是由尖括号包围的关键字,比如<HTML>
HTML标签通常是成对出现的,比如<b></b>
标签中第一个叫做开始标签,第二个叫做结束标签,养成写了开始标签,直接写结束标签,再写内容的习惯,不然容易遗漏
HTML元素和HTML标签通常是一个意思,但是严格来说,一个HTML元素包含开始标签和结束标签,比如:<p>这是一个段落</p>
web浏览器是用于读取HTML文件,并将其作为网页显示。
浏览器并不是直接显示HTML标签,使用标签可以决定如何展示HTML页面的内容给用户
HTML 网页结构
下面是一个可视化的HTML页面结构:
只有 <body> 区域 (白色部分) 才会在浏览器中显示。 |
从初期的网络诞生,已经出现了很多HTML版本
使用<!DOCTYPE>声明HTML的版本,浏览器才能正确显示网页内容,doctype声明是不区分大小写的
通用声明
HTML5
<!DOCTYPE HTML>