图片数据的收集 | 项目分享与演示

最新推荐文章于 2022-09-23 22:22:26 发布

flyfor2013

最新推荐文章于 2022-09-23 22:22:26 发布

阅读量603

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/flyfor2013/article/details/105132392

版权

点击上方“AI算法与图像处理”，选择加"星标"或“置顶”

重磅干货，第一时间送达

hello，大家好，今天要分享的内容是关于如何获取所需的数据集，请看下面的图。下图经常被用来解释为什么深度学习如此强大，当你向深度学习模型系统提供更多数据的时候，它会变得越来越好，远比旧的方法要好。

所以，我们明白了数据的重要性。

Image-Downloader 图片爬取项目简介

针对一个新的问题，比如人脸识别（用于识别是否是某主播），此类问题可能没有开源的数据集，因此，就需要我们自己去网上搜索数据并进行处理。

是不是觉得有点慌！

不用怕哈，其实没那么难，不需要你去学爬虫！有现成的开源工具。

开源项目：

https://github.com/sczhengyabin/Image-Downloader

中文描述：

https://github.com/sczhengyabin/Image-Downloader/blob/master/README_zh.md

功能：

支持的搜索引擎: Google, 必应, 百度
提供GUI及CMD版本
GUI版本支持关键词键入，以及通过关键词列表文件（行分隔,使用UTF-8编码）输入进行批处理爬图下载
可配置线程数进行并发下载，提高下载速度
支持搜索引擎的条件查询（如 :site）
支持Google的安全模式开启和关闭
支持socks5和http代理的配置，方便科学上网用户
提供预编译的windows单文件可执行exe下载, 推荐非开发者用户使用。点此下载

下载链接：https://github.com/sczhengyabin/Image-Downloader/releases

Image-Downloader 图片爬取项目在linux下运行演示

（1）下载项目

git clone https://github.com/sczhengyabin/Image-Downloader.git

（2）安装依赖库

apt-get install python3-pip python3-pyqt5 pyqt5-dev-tools

安装python包

pip3 install -r requirements.txt

下载和安装phantomjs

# 下载链接 https://bitbucket.org/ariya/phantomjs/downloads/

下载完成后，将phantomjs文件路径添加至PATH环境变量，或者将其拷贝到/usr/local/bin文件夹。

安装完成后测试

phantomjs -v
# 输出2.1.1，我电脑是这个版本d

这里，我们已经将准备工作都完成了，接下来就是运行GUI界面

python image_downloader_gui.py

GUI界面功能简介

这里我的设置是：

采用百度搜索；

关键字：dasima（我尝试输入中文，但是不行）；

Face only：打开（表示我希望图片是有人脸的）；

参数设置：采用默认的100,5（含义，下载100张，50个线程同时下载）；

其他不用设置。

输出结果：

（实际输出96张，应该是自动删除了一些非人脸的图片）

是不是很皮！

至此，我们已经完成了，数据的收集工作。

纸上得来终觉浅，绝知此事要躬行。

亲测有用后，不妨分享到朋友圈或点个在看支持一下小编！

[hold住]

END

参考文献：

https://www.sohu.com/a/124651541_608963

https://github.com/sczhengyabin/Image-Downloader

https://github.com/sczhengyabin/Image-Downloader/blob/master/README_zh.md

加群交流

欢迎小伙伴加群交流，目前已有交流群的方向包括：AI学习交流群，目标检测，秋招互助，资料下载等等；加群可扫描并回复感兴趣方向即可（注明：地区+学校/企业+研究方向+昵称）

用心创作求鼓励 ????

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
图片数据的收集 | 项目分享与演示

点击上方“AI算法与图像处理”，选择加"星标"或“置顶”重磅干货，第一时间送达hello，大家好，今天要分享的内容是关于如何获取所需的数...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。