目录
网页有三大技术要素:HTML、CSS、JavaScript
HTML:定义了网页的结构和信息
爬虫最主要的目的是获得信息,因此主要和HTML打交道
比如:
<!DOCTYPE HTML>(用来告诉浏览器,文件类型是HTML)
<head>
<meta charset="UTF-8">(如果不加蓝色的这段会出现乱码)
<title>Title</title>
</head>
<html>(起始标签,表示开始)
<body>(表示文档的主体内容)
<h1>这是一个标题</h1>(h1表示一级标题,也就是最大字号的标题)
<p>这是一段文字这是一段文字这是一段文字</p>(p表示文本段落)
<body>
</html>(闭合标签,表示结束)
每个被尖括号包围的都是一个HTML的标签
<html>,</html>和它们之间的内容可以被看作是一个HTML元素
html标签是HTML文档的根,因此其他所有元素都要放在<html>和</html>之间
h1和p都是body的子元素,且他们之间是兄弟元素,这对应了一个标题和一段文本的信息结构逻辑
检验html代码执行后的样子:把上述代码放入编辑器,用浏览器打开即可