网页img标签含有data-src时使用jsoup爬取正常页面

Q:网页img标签含有data-src如何使用jsoup爬取正常显示图片的页面?

A:强拆

起因:data-src中含有真实的图片链接,但是data里是其他的东西,src里的内容也不对,我需要获取页面的全部内容进行重新排版。

其实很原理很简单……
你用正则把获取的网页元素html代码直接改掉属性名字就万事了……

例如这里以prts为例:

        Pattern pattern = Pattern.compile("/images/");
        Matcher m = pattern.matcher(text);
        text = m.replaceAll("http://prts.wiki/images/");
        pattern = Pattern.compile("src");
        m = pattern.matcher(text);
        text = m.replaceAll("srcdel");
        pattern = Pattern.compile("data-srcdel");
        m = pattern.matcher(text);
        text = m.replaceAll("src");

0到2:把所有的/images/相对路径改成图片的真实路径;
3到5:我们吧所有的src标签改为srcdel,这个标签名字是瞎起的,其实就是单纯的把这个搞事情的标签去掉;
6到底:把所有的data-srcdel(被上步修改)更改为img的真实src;
完事,换完了,把data-src去掉换成了src,然后就行了。

改之前:

before

结果图:

after

做个wiki插件真费事=。=
2021年5月6日00:37:17

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值