对于网页结构而言,图片也就是一个文件及文件目录+名字的放在html中的src标签里。找到这个src标签对应的内容,就可以图片爬取下来。
ps:有些网站的图片可能不是放在src标签里的,可能放在data-src或origin-src等标签里的。
如单纯采集收藏各类图片的话,没有必要自己编码写爬虫,可以使用通用的采集工具。
这里自荐一下简数采集平台,采集图片是非常方便的。
简数采集是新一代的网站文章采集和发布平台,它完全在线配置和使用云采集,功能强大,操作简单,配置快捷高效。
简数不仅提供网页文章采集、数据批量修改、定时采集、定时定量自动发布等基本功能,还集成强大的SEO工具,并创新实现了规则智能提取引擎、书签一键采集发布等特色功能,大幅提升了采集配置和发布效率。
采集简单,发布更轻松:支持一键发布到WorpPress、帝国、织梦、ZBlog、Discuz、Destoon、Typecho、Emlog、Mipcms、米拓、易优CMS、苹果CMS、PHPCMS等CMS网站系统,还可以发布到自定义Http接口。
另外还支持特定文章的“一键快速采集”,包括:微信公众号文章、今日头条、新闻泛采集。
简数采集有免费版本,有需要的同学可以看看新手教程并进行体验使用:采集入门教程(简化版) · 简数数据采集平台帮助中心doc.keydatas.com