做自媒体的,可能需要到采集网络上的图片及文章等素材,手动一张张去右键下载效率当然太低 了。还有的朋友不喜欢动脑筋,喜欢到网上搜索一些工作总结啊,或是看小说啊那些文字看得到复制不了,要是能有个小工具来帮助采集就好啦!
说干就干,思路当然是自己动手做个小工具啦!最简单的vb6即可快速可视化做出来。编程思路如下:
一、输入制定网址,一键抓取网页内容,等待下一步分析资源。这里使用WebBrowser控件好了;
二、遍历网页内容,识别出图片资源和文字资源,进行预提取。这里使用函数来解决问题;
三、按不同需求将抓取到的文字内容保存为文件,或将抓取到的图片批量保存到本地制定的文件夹下面。这里为了节约电脑空间,可考虑增加批量压缩采集下来的图片的一个附加功能。使用图片处理模块来实现。
四、采集日志记录功能。这里可以使用ini配置函数来实现。
五、问题解决。最后形成这个软件《冰糖自媒体图文素材采集器》的雏形1.0。
目前已测试可采集大部分网站上的图文素材,包括百度文库、360图书馆、起点中文等相关站点的文章文字,就算网页不允许复制也能抓取,当然,收费类文档是不能抓取的。估计有其他高手能做到。此外存在没解决的bug就是预览有的png图片或是空网址图片可能会报错或闪退,请无视即可。
测试效果如下图:
该软件源码已开源放在笔者的下载栏目啦!感兴趣的小伙伴欢迎去支持一下!希望能给到您启发。