1.正则:improt re
正则表达式可以判断目标字符是否符合特定要求,比如手机,身份证号等等
正则分为三种查找方法:re.math(),re.search(),re.findall()
xpath beautifulsoup
2.xpath–一种针对结构化数据进行数据匹配的描述语言
xpath分析目标数据:结构化数据,标记语言定义的数据[xml/HTML]
基本语法:针对加载网页/xml文档,转换成文档结构;
局部数据匹配。
基于index.html的查询操作
代码 作用
html 查询所有html子节点
/html 查询根节点下html节点
Python怎么操作xpath
Python中默认没有操作模块,可以使用第三方模块lxml对结构化数据xpth进行支持
3.beautifulsoup
bs4是一种对性能的要求,时间限制相对较弱的一种爬取方式
三种爬取方式对比
re xpath bs4
安装 内置 第三方 第三方
语法 正则 路径匹配 面向对象
使用 困难 较困难 简单
性能 最高 适中 最低