数据提取方法

html和xml的区别

  • html(超文本标记语言),用来显示数据
  • xml(可扩展标记语言),用来传输和存储数据

xpath语法

  • // 的用途

    • //a当前html页面上的所有的a
    • bookstore//bookbookstore下的所有book元素
  • @的使用

    • //a/@herf所有a的href
  • text()的使用

    • //a/text()获取所有的a下的文本
  • text()的使用

    • //a/text()获取所有的a下的文本
    • //a[text()=下一页]获取文本为下一页的a标签
  • xpath查找特定的节点

    • //a[1]选择第一个a标签
    • //a[last()]选择最后一个a标签
    • //a[position()<4]选择前三个a标签
  • xpath的包含

    //a[contains(text(),“下一页”)]选择文本包含下一页三个字的a标签

    //a[contains(@class, "n")]选择class属性包含n的a标签

lxml模块的使用

from lxml import etree
element = etree.HTML(html_str) # bytes或str类型的字符串
element.xpath("xpath_str")  # 返回列表
etree.tostring(element)  # 转化为字符串,查看与原始element是否有区别
# 数据提取时,先分组,再提取
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值