目录
bs4解析-HTML语法
bs4解析比较简单,但是呢,首先你需要了解一丢丢的html知识,然后再去适应bs4去提取,逻辑和编写难度就会非常简单和清晰。
HTML(Hyper Text Markup Language)超文本标记语言,是我们编写网页的最基本也是最核心的一种语言,其语法规则就是用不同的标签对网页上的内容进行标记
从而使网页显示除不同的展示效果。
<h1>
我爱你
</h1>
<h1 align="center">
i love you
</h1>
# h1: 标签
# align: 属性
# center: 属性值
<标签 属性="属性值">被标记的内容</标签>
eg:<a href="hhtp://www.baidu.com">周杰伦</a>
上述代码的含义是在页面显示“我爱你”三个字,但是我爱你三个字被“<h1>"和”</h1>标记了。白话就是被括起来了。被H1这个标签括起来了,这个时候,浏览器在展示的时候就会让我爱你变粗变大。俗称标题,所以HTML的语法就是用类似这样的标签对页面内容进行标记,不同的标签表现出来的效果不一样。
h1: 一级标题
h2: 二级标题
p: 段落
font:字体(被废弃了,但是能用)
body:主体
简单的科普下,如果想更深入的了解可以去前端课程
<h1>
i love you
</h1>
<h1 align="center">
i really love you
</h1>
首先,上面两个标签都是h1标签,都是一级标题,但是下面这个会显示在中间,也就是说,通过xxx=xxx这种形式对h1标签进一步的说明了,那么这种语法在
html中被称为标签的属性,并且属性可以有多个,例如:
<body text="green" bgcolor="#eee">
你看我的颜色,贼健康
</body>
总结,html语法
<标签 属性="值" 属性="值">
被标记的内容
</标签>
bs4拿到想要的自己的内容,通过标签名精准拿到数据
<div id="1" class="h1">周杰伦</div>
<div id="2" class="h1">周</div>
<div id="3" class="h2">杰</div>
<div id="4" class="h3">伦</div>
# 通过标签名来拿到数据
# div -> id:3 => 杰
# div -> class:h3 => 伦
#bs4