python正则表提取第一个逗号前的内容_爬虫如何正确从网页中提取伪元素?

阅读本文大概需要 2 分钟。

我们来看一个网页,大家想想使用 XPath 怎么抓取。

25e12f0582825e523266e438719f1b49.png

可以看到,在源代码里面没有请抓取我!这段文字。难道这个网页是异步加载?我们现在来看一下网页的请求:

aa59b3f03558271efba3202cd73a468b.png

网页也没有发起任何的Ajax 请求。那么,这段文字是从哪里来的?

我们来看一下这个网页对应的 HTML:

3d66cf9a2dea6d402e2d14eb8cb725e1.png

整个 HTML 里面,甚至连 JavaScript 都没有。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值