一般网页的图片地址是在img标签的src属性,这种数据采集器一般都能识别获取。
<img src="图片地址">
但是有些网站为了加快访问网页速度,延迟加载图片,会将真正的图片地址设置在自定义命名的属性,因为自定义属性命名方式各种各样的没有固定标准,可能会导致文章采集器智能识别获取图片失败的。
自定义命名属性例如:
<img src="占位小图片地址" origin-pc-src="真实图片地址">
<img src="占位小图片地址" lazy-loading-src="真实图片地址">
我们可以在浏览器(例chrome,火狐Firefox)打开对应的文章页面,右键查看网页源代码,然后用搜索功能(ctrl+F5)查看图片真实地址;
例如查找到图片地址在 lazy-loading-src 属性,打开简数采集器文章详情提取器,content字段的【字段数据处理】--》【高级提取】--》在【图片链接属性】填写 lazy-loading-src,最后记得保存,就可以采集到对应的图片了。