Python爬虫第二课:了解与学习HTML

本文介绍了HTML的基本概念,包括查看HTML网页代码的方法,HTML的层级结构和元素,以及如何通过标签和属性来理解网页结构。文章还提到了HTML中的<head>和<body>标签,强调了style属性、class属性和ID属性的作用,并简单探讨了如何使用爬虫从HTML中提取数据。
摘要由CSDN通过智能技术生成

HTML(Hyper Text Markup Language)是用来描述网页的一种语言,也叫超文本标记语言。换种说法,HTML和网页的关系,就像汽车设计图纸和汽车的关系。

HTML是前端工程师使用的语言,用来设计“网页的结构图”。 浏览器会把HTML解析成我们看到的网页。

一、如何查看HTML网页代码

  • 在网页任意地方点击鼠标右键,然后点击“显示网页源代码”。此时,浏览器弹出一个新的标签页,这就是HTML的源代码。
  • 或者,在网页的空白处点击右键,然后选择“检查”(快捷方式是ctrl+shift+i)。
  • 这个叫做“开发者工具栏”,将鼠标放到代码上,左边网页中的一些内容被标亮了出来。意思就是你鼠标选到的这行代码对应着网页上的这部分内容。
1.HTML的层级
  • 当你点击代码中的一些三角形的时候,可以展开和合上对应的一段代码。这就是HTML里面的层级关系。

  • 这每一个可以展开和合上的小三角形里包含的内容,都是一个层级,它很像电脑中一层一层的文件夹。

2. 学习HTML
HTML标签与元素
<html>
<head>
<meta charset="utf-8"> 
</head>
<body>
<h1>我是一级标题</h1>
<h2>我是二级标题</h2>
<h3>我是三级标题</h3>
<p>我是一个段落啦</p>
</body>
</html> 

# 输出结果如下:
我是一级标题
我是二级标题
我是三级标题
我是一个段落啦
  • 标签
    这段代码中,可以看到很多的 <> 尖括号,尖括号里面包含的字母,就是「标签」。我们可以看到标签都是成对出现,前面的是「开始标签」,后面的带有斜杠的就是「结束标签」。
    • 标签通常是成对出现的:前面的是【开始标签】,比如;后面的是【结束标签】,如:。
    • 但是也有少部分单个出现的标签,比如上面那段代码中的,它定义了网页的编码格式为utf-8
      在这里插入图片描述
  • 元素
    开始标签+标签中的内容+结束标签就组成了「元素」。
    在这里插入图片描述
    在这里插入图片描述
  • </
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值