谷歌图片的爬虫库（附加必应图片爬虫）--针对近期谷歌变了

最新推荐文章于 2024-07-04 22:58:45 发布

原创最新推荐文章于 2024-07-04 22:58:45 发布 · 1.6k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据挖掘 #大数据

爬虫专栏收录该内容

1 篇文章

订阅专栏

本文精选了三个近期可用的谷歌图片爬虫库，包括GoogleImagesDownloader、google-images-download和BingImagesWebDownloader，详细介绍了各库的特点、环境配置、使用方法及限制。

图片爬虫库合集

三个近期可用的爬虫库
结束语

三个近期可用的爬虫库

谷歌会不定期更新一些策略，所以现有的爬虫库并不是很稳定，近期做了相关的试验，在Github上找到了三个还可以用的爬虫库（当然在你可以科学上网的情况下，而且我需要在全局代理下才可以爬虫），记录分享一下。

谷歌爬虫库1–GoogleImagesDownloader

如果你有逛Github的习惯，点击上面的链接，按照他的英文说明一步步来，基本就没有问题。一次性爬虫没有数量上限，但是好像有下限，至少下载一页（400张）图片，或者该关键字的资源不足400张。

环境配置要求 ：Firefox and geckodriver are required by selenium, and Firefox 55 or greater is recommended, cause geckodriver support that best. As for geckodriver, just download the latest version of geckodriver from here, then add it to the PATH environment variable.

Firefox火狐浏览器、python和selenium版本比它高就可以，geckodriver下载最新版本，现在是0.26.0，注意操作系统和32/64位数，下载好后记得配置环境变量，放在哪个文件夹没有关系；如果是第一次安装Firefox火狐浏览器，提醒一句，最后进行爬虫前需要重启电脑才可以爬；
下载爬虫库 ：然后clone它的代码，选择Download ZIP下载好后，解压，目前里面的三个.py文件只有download_with_selenium.py是可以用的，作者也提到了。
在自己的环境里 运行代码 就可以了，里面可以设置的参数有：关键词、次要关键词、数量、线程、存放目录，这个自己看代码最后面也能看懂，懂的都懂；
看看爬虫过程 ：这是三线程作业（默认），会打开三个浏览器，当然是你搜索关键词至少三个，一个线程负责一个关键词。整个过程先是下载完全部的图片链接，然后再下载链接对应的图片。

（推荐）谷歌爬虫库2–google-images-download

这个库之前很强大，~~但是最近因为谷歌的策略变动，还没有大佬修改完好，所以现在只能爬取100张以下的图片，~~ （已经解决数量问题），主要在于可以设置非常多的参数，对于需求精致要求高的朋友极力推荐。
不过一定要注意下载好上面链接的库之后，一切还没有结束，还需要替换google_images_download文件夹里的google_images_download.py文件。

下载爬虫库 ：按谷歌爬虫库1的方法下载，或者在终端运行以下代码，可以直接配置在当前环境的第三方库中，如果需要调用里面的爬虫类直接import这个爬虫库就可以使用。

pip install google_images_download

替换google_images_download.py文件 ：替换文件是voins的版本，请在这里复制脚本后替换。

你也可以点击Raw查看源代码在复制粘贴替换原来的google_images_download.py文件。
看看结果吧 ：这个库的强大在于它有非常多的参数可以设置，具体的参数及使用方式参考这里，非常专业，相信需要谷歌爬虫的你英语已经过关了。

必应爬虫库3–Bing Images Web Downloader

搜索之余找到了必应的图片爬虫，可以作为备用，这个库其实也是参照谷歌爬虫库2写的，所以代码里会有许多熟悉的身影，但其实如果搜索必应图片，它可以设置的参数很少…基本就是关键词、数量和存放文档。一次性爬虫的数量限制大概在500~800张。

下载爬虫库 ：参照谷歌爬虫库1的下载步骤即可。
开始爬虫 ：里面的bing_scraper.py就是爬虫脚本，这里作者推荐的是在cmd或者powershell里运行该脚本，同时添加一些参数。
python bing_scraper.py --search 'honeybees on flowers' --limit 10 --download --chromedriver /Users/glennjocher/Downloads/chromedriver
注意chromedriver 的路径需要修改为你自己的，一般是爬虫100张以上的图片需要这个参数。
其实想用python语言运行这个爬虫也是可以的，需要注意里面的user_input()函数，这个喜欢折腾的自己摸索吧。

特点总结

三个库的特点我简单描述一下：

谷歌爬虫库1：过程可视化，利于理解爬虫的原理
（推荐）谷歌爬虫库2：参数丰富，爬你所想
必应爬虫库3：额外需求，bing~

结束语

Github上资源很多，可以交流的伙伴也很多，这就是一个全球知识分享的时代，练好英语肯定不会亏。

如果想深入探讨爬虫相关，完全可以注册Git账号后在上述三个库的主页上点击Watch里的Watching，时刻关注他们的动态。

希望这些资源可以帮助到最近爬虫谷歌图片失败的朋友们。

4 条评论

方舟后裔 2021.01.23
博主你好，你现在还能用？我下载不了图片
- 土Bo鼠回复方舟后裔 2021.01.24
  现在没用了，你之前可以的用的话，可以去看看github库的issue有什么变化

weixin_49285573 2020.09.11
请问“替换google_images_download.py文件”那个操作具体是替换什么文件呢，我安装了google_images_download之后也没有在安装包里找到google_images_download.py文件？
- 方舟后裔回复weixin_49285573 2021.01.23
  你实现了吗？我下不了图片