最近制作数据集需要在网上爬取图片,在Github上找到一个可以批量爬取Google图片的项目。
一、安装
使用压缩包下载的方式进行下载,起初我使用的pip命令安装,但是后面遇到了无法解决的问题,因此推荐大家也使用压缩包下载。
解压缩后用pycharm打开文件夹
二、简单示例
在google_images_download文件夹下打开pycharm的终端
在这里只演示一些最基本的操作,更高阶的操作可以去项目文档里查看。
python google_images_download.py -k "Polar bears, baloons, Beaches" -l 20
-k后面是关键词,-l后面是下载图片的张数
使用非英语关键字进行图片搜索
python google_images_download.py -k "北极熊" -l 5
三、实际运行
在终端中输入如下命令
python google_images_download.py -k "北极熊" -l 5
发现报错:TypeError: ‘NoneType‘ object is not subscriptable
于是我去查看这个项目的issue,我发现有人也提出了这个问题,第一条评论给出了解决方法。
按照这个方法,将405行改为info data[25]后,再次运行
发现问题已解决,已可以正常下载。
图片的下载目录在google_images_download\downloads目录下
成功下载了五张在Google图片中关键词为“北极熊”的图片
2024.4.30更新
在最近使用的时候出现了Image objects data unpacking failed的报错
通过查看这个项目最近的issue,发现不少人遇到了这个问题
目前没有给出解决方法,这个项目现在暂时无法使用了