Bs4
- bs4全称:beautifulsoup4,意思为美丽的汤版本4
- 可以在HTML或XML文件中提取数据的网页信息提取库
与re和xpath模块的区别:
- re模块:使用起来过于麻烦且阅读性不好
- xpath模块:需要使用一些特定的语法
- bs4模块:只需要记住一些方法如:find()、find_all(),后面会发现bs4可以认为是re和xpath的混合使用
<!--<h1>hello html</h1>-->
<!--<h1 align="center">hello html a</h1>-->
<!--<!– h1: 标签–>-->
<!--<!– align: 属性–>-->
<!--<!– center 属性值–>-->
<!--<标签 属性="属性值">被标记的内容</标签>-->
<!--<img src="xxx.jpg"/>-->
<!--<br />-->
<!--<标签 />-->
<div id="1" class="h1">周杰伦</div>
<div id="2" class="h2">周杰</div>
<div id="3" class="h3">杰伦</div>
<div id="4" class="h4">周伦</div>
<div id="5" class="h5">伦</div>
#定位
<!--div -> id:3-->
<!--div -> class:h4-->