#7:Python爬虫的进阶之路---XPath与JSON

XPath

XPath是一门在XML中查找信息的语言,用于XML和HTML中通过元素和属性进行导航。

XPath节点

XPath将XML文档视为节点树,包括七种类型节点:元素,属性,文本,命名空间,处理指令,注释,文档(根)节点。

<?xml version="1.0" encoding="ISO-8859-1"?>
<classroom>
    <student>
        <id>1001</id>
        <name lang="en">marry</name>
        <age>21</age>
        <country>China</country>
    </student>
</classroom>

<classroom>文档节点;<id>1001</id>元素节点;lang="en"属性节点;marry文本。
节点关系:父(parent)子(children)兄弟(sibling)祖先(ancestor)后代(descendant)

XPath语法

使用路径表达式选取节点或节点集,节点沿路径(path)或步(step)选取。

<?xml version="1.0" encoding="ISO-8859-1"?>
<classroom>
    <student>
        <id>1001</id>
        <name lang="en">marry</name>
        <age>21</age>
        <country>China</country>
    </student>
    <student>
        <id>1002</id>
        <name lang="en">jack</name>
        <age>25</age>
        <country>China</country>
    </student>
</classroom>

Alt
Alt
Alt
还有通配符‘*’与或操作‘|’

XPath 轴

绝对路径始于斜杠/,相对路径…
/step/step/…
步(path):轴(axis)、节点测试(node-test)、谓语(predicate)
语法:轴名称::节点测试[谓语]
Alt
Alt

XPath运算符

Alt
Alt

JSON

JS对象表示法(JS Object Notation)

  • JSON名称/值 对。 类似python的字典
  • 。可为数字、字符串、布尔值、数组、对象、null
  • 对象。 json对象在花括号中,对象可包括多个键值对,即字典
  • 数组 在方括号中,可含多个对象
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值