在爬虫中,BeautfulSoup和lxml都是用来分析网页的,其中BeautifulSoup使用简单,但速度慢,也可以使用正则表达式来分析网页,获取有价值信息,但是正则表达式使用起来复杂,优点是速度快,最后lxml集合BeutifulSoup和正则表达式的优点,使用简单,速度也不比正则表达式慢。
一、BeautifulSoup
1、使用BeautifulSoup
使用BeautifulSoup需要从bs4模块导入BeautifulSoup,使用Beautiful有四种模式,具体看下图:
2、将html或者xml以适合人阅读的方式打印
BeautifulSoup对象的.prettify(),可以为Tag(标签、节点)换行补充,使得html和xml字符串容易理解。
print(soup.prettify())
3、获取tag的名字和属性
tag.name获取当前节点的名字
tag['xxx']获取当前节点的xxx属性值
tag.string获取当前节