1、BeautifulSoup库与re正则表达式模块
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库;而re正则表达式模块进行各类正则表达式处理。
2、BeautifulSoup对象类型
Tag——HTML和XML文档中的标签
Navigable String——Tag当中的字符串
BeautifulSoup——BeautifulSoup对象表示的是一个文档的全部内容。很多时候可以把它当作一个特殊的Tag 对象
Comment——Navigable String的子类,输出的内容仍不包含注释符号。