day4 解析 安装xpath

文章介绍了如何下载并安装XPathChrome扩展,以及如何利用lxml库在Python中解析HTML文件。XPath的基本语法包括路径查询、谓词查询、属性查询、模糊查询和内容查询等,用于高效定位和提取网页元素。
摘要由CSDN通过智能技术生成

1.下载 xpath

https://chrome.zzzmh.cn/info?

2.修改后缀名为xpath.zip

3.将xpath.zip文件拖入浏览器扩展程序中

4.打开一个网站后按 ctrl + shift + x来打开xpath插件

5.安装lxml库

解析本地文件:

html_tree = etree.path('xx.html')

解析服务器响应文件

html_tree = etree.HTML(response.read().decode('utf-8'))

html_tree.xpath(xpath路径)

xpath基本语法:

1.路径查询:

        //:查询所有子孙节点,不考虑层级关系

        /:找直接字子节点

2.谓词查询

        //div[@id]

        //div[@id='''maincontent']

3.属性查询

        //[@class]

4.模糊查询

        //div[contains(@id,"he")]

        //div[starts-with(@id,"the")]

5.内容查询

        //div/h1/text()

6.逻辑运算

        //div[@id='''head' and @class="s_down"]

        //title | //price

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值