谷歌图片的爬虫库(附加必应图片爬虫)--针对近期谷歌变了

三个近期可用的爬虫库

谷歌会不定期更新一些策略,所以现有的爬虫库并不是很稳定,近期做了相关的试验,在Github上找到了三个还可以用的爬虫库(当然在你可以科学上网的情况下,而且我需要在全局代理下才可以爬虫),记录分享一下。

谷歌爬虫库1–GoogleImagesDownloader

如果你有逛Github的习惯,点击上面的链接,按照他的英文说明一步步来,基本就没有问题。一次性爬虫没有数量上限,但是好像有下限,至少下载一页(400张)图片,或者该关键字的资源不足400张。

  • 环境配置要求 :Firefox and geckodriver are required by selenium, and Firefox 55 or greater is recommended, cause geckodriver support that best. As for geckodriver, just download the latest version of geckodriver from here, then add it to the PATH environment variable.
    环境配置要求
    Firefox火狐浏览器、python和selenium版本比它高就可以,geckodriver下载最新版本,现在是0.26.0,注意操作系统和32/64位数,下载好后记得配置环境变量,放在哪个文件夹没有关系;如果是第一次安装Firefox火狐浏览器,提醒一句,最后进行爬虫前需要重启电脑才可以爬;
  • 下载爬虫库 :然后clone它的代码,选择Download ZIP下载好后,解压,目前里面的三个.py文件只有download_with_selenium.py是可以用的,作者也提到了。
    下载库
  • 在自己的环境里 运行代码 就可以了,里面可以设置的参数有:关键词、次要关键词、数量、线程、存放目录,这个自己看代码最后面也能看懂,懂的都懂;
  • 看看爬虫过程 :这是三线程作业(默认),会打开三个浏览器,当然是你搜索关键词至少三个,一个线程负责一个关键词。整个过程先是下载完全部的图片链接,然后再下载链接对应的图片。
    爬虫过程

(推荐)谷歌爬虫库2–google-images-download

这个库之前 很强大,但是最近因为谷歌的策略变动,还没有大佬修改完好,所以现在只能爬取100张以下的图片, (已经解决数量问题),主要在于可以设置非常多的参数,对于需求精致要求高的朋友极力推荐。
不过一定要注意下载好上面链接的库之后,一切还没有结束,还需要替换google_images_download文件夹里的google_images_download.py文件。

  • 下载爬虫库 :按谷歌爬虫库1的方法下载,或者在终端运行以下代码,可以直接配置在当前环境的第三方库中,如果需要调用里面的爬虫类直接import这个爬虫库就可以使用。
pip install google_images_download
  • 替换google_images_download.py文件 :替换文件是voins的版本,请在这里复制脚本后替换。
    voins修改后的版本
    你也可以点击Raw查看源代码在复制粘贴替换原来的google_images_download.py文件。
  • 看看结果吧 :这个库的强大在于它有非常多的参数可以设置,具体的参数及使用方式参考这里,非常专业,相信需要谷歌爬虫的你英语已经过关了。
    皮肤病爬虫
    参数列表

必应爬虫库3–Bing Images Web Downloader

搜索之余找到了必应的图片爬虫,可以作为备用,这个库其实也是参照谷歌爬虫库2写的,所以代码里会有许多熟悉的身影,但其实如果搜索必应图片,它可以设置的参数很少…基本就是关键词、数量和存放文档。一次性爬虫的数量限制大概在500~800张。

  • 下载爬虫库 :参照谷歌爬虫库1的下载步骤即可。
  • 开始爬虫 :里面的bing_scraper.py就是爬虫脚本,这里作者推荐的是在cmd或者powershell里运行该脚本,同时添加一些参数。
    python bing_scraper.py --search 'honeybees on flowers' --limit 10 --download --chromedriver /Users/glennjocher/Downloads/chromedriver
    注意chromedriver 的路径需要修改为你自己的,一般是爬虫100张以上的图片需要这个参数。
    其实想用python语言运行这个爬虫也是可以的,需要注意里面的user_input()函数,这个喜欢折腾的自己摸索吧。

特点总结

三个库的特点我简单描述一下:

  • 谷歌爬虫库1:过程可视化,利于理解爬虫的原理
  • (推荐)谷歌爬虫库2:参数丰富,爬你所想
  • 必应爬虫库3:额外需求,bing~

结束语

Github上资源很多,可以交流的伙伴也很多,这就是一个全球知识分享的时代,练好英语肯定不会亏。

如果想深入探讨爬虫相关,完全可以注册Git账号后在上述三个库的主页上点击Watch里的Watching,时刻关注他们的动态。

希望这些资源可以帮助到最近爬虫谷歌图片失败的朋友们。

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

土Bo鼠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值