如何采集延迟加载图片(采集异步加载图片)

一般网页的图片地址是在img标签的src属性,这种数据采集器一般都能识别获取。

<img src="图片地址">

但是有些网站为了加快访问网页速度,延迟加载图片,会将真正的图片地址设置在自定义命名的属性,因为自定义属性命名方式各种各样的没有固定标准,可能会导致文章采集器智能识别获取图片失败的。

 自定义命名属性例如:

<img src="占位小图片地址" origin-pc-src="真实图片地址">

<img src="占位小图片地址" lazy-loading-src="真实图片地址">

我们可以在浏览器(例chrome,火狐Firefox)打开对应的文章页面,右键查看网页源代码,然后用搜索功能(ctrl+F5)查看图片真实地址;


例如查找到图片地址在 lazy-loading-src 属性,打开简数采集器文章详情提取器,content字段的【字段数据处理】--》【高级提取】--》在【图片链接属性】填写 lazy-loading-src,最后记得保存,就可以采集到对应的图片了。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值