xpath beautifulsoup

1.正则:improt re
正则表达式可以判断目标字符是否符合特定要求,比如手机,身份证号等等
正则分为三种查找方法:re.math(),re.search(),re.findall()
xpath beautifulsoup
2.xpath–一种针对结构化数据进行数据匹配的描述语言
xpath分析目标数据:结构化数据,标记语言定义的数据[xml/HTML]
基本语法:针对加载网页/xml文档,转换成文档结构;
局部数据匹配。
基于index.html的查询操作
代码 作用
html 查询所有html子节点
/html 查询根节点下html节点
Python怎么操作xpath
Python中默认没有操作模块,可以使用第三方模块lxml对结构化数据xpth进行支持
3.beautifulsoup
bs4是一种对性能的要求,时间限制相对较弱的一种爬取方式

三种爬取方式对比
re xpath bs4
安装 内置 第三方 第三方

语法 正则 路径匹配 面向对象

使用 困难 较困难 简单

性能 最高 适中 最低

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值