Python爬虫之BeautifulSoup库函数解析
简介
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。
安装
安装Python的包管理器pip,然后执行以下命令
pip install beautifulsoup4
使用
在代码中用到BeautifulSoup时需要引入,引入方式如下
from bs4 import BeautifulSoup
基本用途
- 将html文档解析成文档树,返回bs对象
- 通过get_text()函数返回文档除链接、标签、段落外的文本内容
- find函数和findAll函数通过标签和属性过滤html页面,标签可以多个,属性是字典类型,自然可以多值
- 3中的两个函数当通过keyword参数过滤时,如果key为class,则需写为class_=“green”
- bs对象可以直接调用子标签来返回,但这种方式灵活性不大,当页面