点击上方“AI算法与图像处理”,选择加"星标"或“置顶”
重磅干货,第一时间送达
hello,大家好,今天要分享的内容是关于如何获取所需的数据集,请看下面的图。下图经常被用来解释为什么深度学习如此强大,当你向深度学习模型系统提供更多数据的时候,它会变得越来越好,远比旧的方法要好。
所以,我们明白了数据的重要性。
Image-Downloader 图片爬取项目简介
针对一个新的问题,比如人脸识别(用于识别是否是某主播),此类问题可能没有开源的数据集,因此,就需要我们自己去网上搜索数据并进行处理。
是不是觉得有点慌!
不用怕哈,其实没那么难,不需要你去学爬虫!有现成的开源工具。
开源项目:
https://github.com/sczhengyabin/Image-Downloader
中文描述:
https://github.com/sczhengyabin/Image-Downloader/blob/master/README_zh.md
功能:
支持的搜索引擎: Google, 必应, 百度
提供GUI及CMD版本
GUI版本支持关键词键入,以及通过关键词列表文件(行分隔,使用UTF-8编码)输入进行批处理爬图下载
可配置线程数进行并发下载,提高下载速度
支持搜索引擎的条件查询(如 :site)
支持Google的安全模式开启和关闭
支持socks5和http代理的配置,方便科学上网用户
提供预编译的windows单文件可执行exe下载, 推荐非开发者用户使用。点此下载
下载链接:https://github.com/sczhengyabin/Image-Downloader/releases
Image-Downloader 图片爬取项目在linux下运行演示
(1)下载项目
git clone https://github.com/sczhengyabin/Image-Downloader.git
(2)安装依赖库
apt-get install python3-pip python3-pyqt5 pyqt5-dev-tools
安装python包
pip3 install -r requirements.txt
下载和安装phantomjs
# 下载链接 https://bitbucket.org/ariya/phantomjs/downloads/
下载完成后,将phantomjs文件路径添加至PATH环境变量,或者将其拷贝到/usr/local/bin文件夹。
安装完成后测试
phantomjs -v
# 输出2.1.1,我电脑是这个版本d
这里,我们已经将准备工作都完成了,接下来就是运行GUI界面
python image_downloader_gui.py
GUI界面功能简介
这里我的设置是:
采用百度搜索;
关键字:dasima(我尝试输入中文,但是不行);
Face only:打开(表示我希望图片是有人脸的);
参数设置:采用默认的100,5(含义,下载100张,50个线程同时下载);
其他不用设置。
输出结果:
(实际输出96张,应该是自动删除了一些非人脸的图片)
是不是很皮!
至此,我们已经完成了,数据的收集工作。
纸上得来终觉浅,绝知此事要躬行。
亲测有用后,不妨分享到朋友圈或点个在看支持一下小编!
END
参考文献:
https://www.sohu.com/a/124651541_608963
https://github.com/sczhengyabin/Image-Downloader
https://github.com/sczhengyabin/Image-Downloader/blob/master/README_zh.md
加群交流
欢迎小伙伴加群交流,目前已有交流群的方向包括:AI学习交流群,目标检测,秋招互助,资料下载等等;加群可扫描并回复感兴趣方向即可(注明:地区+学校/企业+研究方向+昵称)
用心创作求鼓励 ????