谷歌图像爬虫方法总结与教程

最新推荐文章于 2024-07-16 21:58:18 发布

搞视觉的张小凡

最新推荐文章于 2024-07-16 21:58:18 发布

阅读量6.6k

点赞数 2

分类专栏：学习教程文章标签：谷歌爬虫数据扩增图片爬虫

本文链接：https://blog.csdn.net/comway_Li/article/details/93338992

版权

学习教程专栏收录该内容

18 篇文章

订阅专栏

　　　对于在计算机时间领域的人，无论在学习之中还是工作之中，数据都是很重要。最近在做一个关于分类的项目，怎奈何数据量很少，需要去各种网站去找相关图像。然而图像一张一张下载太耗时间，所以想能够批量下载。看了很多资料都说谷歌有反爬虫机制，故而就去研究了比较有种的谷歌爬虫方法。我试了三种方法是比较有效的，只不过各有好处。下面开始介绍三种方法，并附有代码、教程。

一、fatkun工具

这个工具是比较好用的，可以批量下载。这是个谷歌浏览器的插件，大家可以自行去谷歌商店下载。（如何下载教程一大堆），安装插件后，去谷歌搜索相关图像关键字，再点击插件下载。

优点：能够下载所有图像，还可以对图像大小进行的一定的筛选，也可以去除图像重复。

缺点：需要手动一直加载才能加载所有图像。

二、google-images-download

这是github上的一个项目，五千多star，还是不错的。

github地址：链接

可以直接pip安装，可以去gitbub上看安装教程，很简单。

有关介绍：链接　这个知乎上已经讲的很清楚，根据上面安装与简单使用。

注意：一定要科学上网才能正常下载。

比较常用的参数有：

cf:此参数用于以某个文件的内容下载。文件中包含了各种参数的赋值。

f:表示图片的格式。用这个参数来指定图像格式。

l:表示要下载的图像上限

s：表示要下载的图像的尺寸大小

w：表示你要下载的图像上传的时间范围。

其他详细参数：链接

优点：能够下载很多图片，有很多参数可以指定，可以根据个人需求进行更改，可自行DIY，比较方便。

缺点：总感觉图片不能下载完全，很多图像下载不了。只能下载两三百张图像。

三、AutoCrawler

这个是gitbub上的另外一个项目有AutoCrawler，我尝试了下，感觉比较好用，根据关键字爬取NASA、谷歌网站上的图片，且不会重复。

项目地址：链接

下载项目后就开始安装：

１、在终端输入：pip install -r requirements.txt（要cd 到requirements.txt文件所在文件）　　这条命令主要是来安装requirements.txt文件中所写的各种依赖包

２、打开项目中的 keywords.txt，在里面填写你要搜索的关键字。

３、最后运行main.py文件就行。

注意事项：

在项目main.py文件中，293 到300行代码是可以修改一些参数的。

--skip true        如果下载的目录已存在，则跳过关键字。 重新下载时需要这样做

--threads 4        设置你要下载的使用线程数量

--google true      是否使用谷歌搜索

--naver true       是否使用naver搜索

--full false       是否下载全分辨率图像而不是缩略图

--face flase       搜索的模式，不太懂，默认就好

优点：可以下载搜索到的所有图片，中途不会阻断，可完全下载。且不会重复。而且可一在两个网站进行搜索（也可以自动加其他网站的，改代码就行），所有我觉得这个很好。

缺点：最大的缺点就是，搜索的关键字不能是中文和英文关键字不能有间隔，故只能一个单词。我也很奇怪，我每次换中文关键字就一直在重新搜索，总是没下载，，可是有的时候中文又可以下载，不知道什么原因。要是大家知道原因，麻烦告知。

就到这了。