用XPath提取捧腹网笑话文本

这篇博客记录了如何使用XPath基本语法来提取捧腹网笑话文本。通过F12开发者工具抓包,结合XPath Heaper进行筛选,逐步排除不需要的元素,如用户名称和打赏等信息,最终实现对笑话文本的精准提取。
摘要由CSDN通过智能技术生成

记录XPath基本语法,使用一些简单的XPath语法提取文本

基本语法
  • 获取文本/text()
    • a/text()获取a标签下的文本
    • a//text()获取a标签下的所有标签的文本
    • //a[text()]='下一页>'获取包含“下一页”文本的a标签
  • /@
    • 获取属性/@属性名
    • 筛选属性//标签[@属性名]
  • //
    • 在xpath开始的时候表示从当前html中任意位置开始选择
    • a//b表示a标签下的任意b标签
  • |
    • 语法,多个条件一起

开始
  • F12开发者模式抓包段子,发现<dl>标签为所选段子文本内容;
  • XPath Heaper中输入//dl发现右上角红框都选取了;
    这里写图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值