最近用到了Beautiful soup对一些网页文本进行处理,发现在抽取一些目标文本的时候用到了一些规则,现在记录如下:
1、常用规则,对标签进行内容提取:
<td><b>Consultant Registration Number :</b>16043646</td>
如果我们要提取 Consultant Registration Number : 那么我们只要使用 bs.find("b").get_text()
如果我们要提取16043646 那么我们要改成bs.find("b").next.next 即可
如果我们有多个标签,比如:
<td><b>Consultant Registration Number :</b>16043646</td>
<td><b>Consultant Registration Number :</b>16043646</td>
<td><b>Consultant Registration Number :</b>16043646</td>
那么我们要获取第二个“
Consultant Registration Number :”,怎么办呢,很简单,使用
bs.findAll("b").get_text()