爬虫--xpath解析入门1

# xpath 是在XML文档中搜索内容的一门语言
# html是xml的一个子集


# book是id name price author的父亲
# id name price author四个是兄弟
# author是nick的父亲
# 通过/book/price进行查找
"""
<book>
    <id>1</id>
    <name>gugugu</name>
    <price>1.23</price>
    <author>
        <nick>咕咕</nick>
        <nick>冉冉</nick>
    </author>
</book>
"""


# 安装lxml模块
# pip install lxml
# xpath解析

from lxml import etree

xml = """
<book>
    <id>1</id>
    <name>gugugu</name>
    <price>1.23</price>
    <author>
        <nick>咕咕</nick>
        <nick>冉冉</nick>
        <span>
            <nick>阿拉斯孤1</nick>
            <div>
                <nick>阿拉斯孤3</nick>
            </div>
        </span>
        <div>
            <nick>阿拉斯孤2</nick>
        </div>
    </author>
</book>
"""

tree = etree.XML(xml)
# result = tree.xpath("/book") # /表示层级关系,第一个/是根节点
# result = tree.xpath("/book/name") # [<Element name at 0x215fa6f15c0>],拿到的不是name里的文本
# result = tree.xpath("/book/name/text()") # /text()拿到结点中的文本
# result = tree.xpath("/book/author//nick/text()") # // 表示后代 //nick表示author后代的所有nick 输出:['咕咕', '冉冉', '阿拉斯孤1', '阿拉斯孤3', '阿拉斯孤2']
# result = tree.xpath("/book/author/*/nick/text()") # * 表示任意的结点,通配符  输出:['阿拉斯孤1', '阿拉斯孤2']
result = tree.xpath("/book//nick/text()") # 所有的nick


print(result)





  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值