1.什么是网页解析器
从网页中提取有价值数据的工具,网页解析器会通过html网页字符串提取出有价值的数据和新URL列表
2.Python的几种网页解析器
模糊匹配:针对字符串来匹配
结构化解析:DOM树
2.1网页解析器--beautiful soup
Python第三方库,用于从HTML 或XML中提取数据
官网:
beautiful soup官网
2.2 安装beautiful soup
通过cmd切换到python3.6\Scripts目录下执行pip install beautifulsoup4进行下载安装
2.3beautiful soup语法
html网页---->创建BeautifulSoup对象 -->搜索节点(find_all、find 可以按照节点名称、属性、文字来搜索)-->访问节点名称、属性、文字