我们还是举上一个例子为例
我们如果想提取demo中a标签的链接信息,需要使用以下方法:
>>> for link in soup.findAll('a'):
print(link.get('href'))
这样就可以获取a标签的href的信息了
输出结果:
soup.findAll(‘a’)这段是查找该网页中所有的a标签。
findAll的使用,有下列几个参数:
findAll方法和正则表达式的结合可以很好地完成网页信息的检索,使用步骤如下:
1.首先引入正则表达式库
import re
2.检索我们想要查询的信息,比如检索所有含Python的字段
soup.findAll(string =re.compile("python"))
结果