Python爬虫第二课：了解与学习HTML

最新推荐文章于 2022-01-16 12:30:12 发布

fightingoyo

最新推荐文章于 2022-01-16 12:30:12 发布

阅读量905

点赞数 3

文章标签： python

本文链接：https://blog.csdn.net/fightingoyo/article/details/104521849

版权

本文介绍了HTML的基本概念，包括查看HTML网页代码的方法，HTML的层级结构和元素，以及如何通过标签和属性来理解网页结构。文章还提到了HTML中的<head>和<body>标签，强调了style属性、class属性和ID属性的作用，并简单探讨了如何使用爬虫从HTML中提取数据。

摘要由CSDN通过智能技术生成

HTML（Hyper Text Markup Language）是用来描述网页的一种语言，也叫超文本标记语言。换种说法，HTML和网页的关系，就像汽车设计图纸和汽车的关系。

HTML是前端工程师使用的语言，用来设计“网页的结构图”。浏览器会把HTML解析成我们看到的网页。

一、如何查看HTML网页代码

在网页任意地方点击鼠标右键，然后点击“显示网页源代码”。此时，浏览器弹出一个新的标签页，这就是HTML的源代码。
或者，在网页的空白处点击右键，然后选择“检查”（快捷方式是ctrl+shift+i）。
这个叫做“开发者工具栏”，将鼠标放到代码上，左边网页中的一些内容被标亮了出来。意思就是你鼠标选到的这行代码对应着网页上的这部分内容。

1.HTML的层级

当你点击代码中的一些三角形的时候，可以展开和合上对应的一段代码。这就是HTML里面的层级关系。
这每一个可以展开和合上的小三角形里包含的内容，都是一个层级，它很像电脑中一层一层的文件夹。

2. 学习HTML

HTML标签与元素

<html>
<head>
<meta charset="utf-8"> 
</head>
<body>
<h1>我是一级标题</h1>
<h2>我是二级标题</h2>
<h3>我是三级标题</h3>
<p>我是一个段落啦</p>
</body>
</html> 

# 输出结果如下：
我是一级标题
我是二级标题
我是三级标题
我是一个段落啦

标签
这段代码中，可以看到很多的 <> 尖括号，尖括号里面包含的字母，就是「标签」。我们可以看到标签都是成对出现，前面的是「开始标签」，后面的带有斜杠的就是「结束标签」。
- 标签通常是成对出现的：前面的是【开始标签】，比如；后面的是【结束标签】，如：。
- 但是也有少部分单个出现的标签，比如上面那段代码中的，它定义了网页的编码格式为utf-8
元素
开始标签+标签中的内容+结束标签就组成了「元素」。