谷歌图像爬虫方法总结与教程

   对于在计算机时间领域的人,无论在学习之中还是工作之中,数据都是很重要。最近在做一个关于分类的项目,怎奈何数据量很少,需要去各种网站去找相关图像。然而图像一张一张下载太耗时间,所以想能够批量下载。看了很多资料都说谷歌有反爬虫机制,故而就去研究了比较有种的谷歌爬虫方法。我试了三种方法是比较有效的,只不过各有好处。下面开始介绍三种方法,并附有代码、教程。

一、fatkun工具

这个工具是比较好用的,可以批量下载。这是个谷歌浏览器的插件,大家可以自行去谷歌商店下载。(如何下载教程一大堆),安装插件后,去谷歌搜索相关图像关键字,再点击插件下载。

优点:能够下载所有图像,还可以对图像大小进行的一定的筛选,也可以去除图像重复。

缺点: 需要手动一直加载才能加载所有图像。

二、google-images-download

这是github上的一个项目,五千多star,还是不错的。

github地址:链接

可以直接pip安装,可以去gitbub上看安装教程,很简单。

有关介绍:链接 这个知乎上已经讲的很清楚,根据上面安装与简单使用。

注意:一定要科学上网才能正常下载。

比较常用的参数有:

cf:此参数用于以某个文件的内容下载。文件中包含了各种参数的赋值。

f:表示图片的格式。用这个参数来指定图像格式。

l:表示要下载的图像上限

s:表示要下载的图像的尺寸大小

w:表示你要下载的图像上传的时间范围。

其他详细参数:链接

优点:能够下载很多图片,有很多参数可以指定,可以根据个人需求进行更改,可自行DIY,比较方便。

缺点:总感觉图片不能下载完全,很多图像下载不了。只能下载两三百张图像。

三、AutoCrawler

这个是gitbub上的另外一个项目有AutoCrawler,我尝试了下,感觉比较好用,根据关键字爬取NASA、谷歌网站上的图片,且不会重复。

项目地址:链接

下载项目后就开始安装:

1、在终端输入:pip install -r requirements.txt(要cd 到requirements.txt文件所在文件)  这条命令主要是来安装requirements.txt文件中所写的各种依赖包

2、打开项目中的 keywords.txt,在里面填写你要搜索的关键字。

3、最后运行main.py文件就行。

注意事项:

在项目main.py文件中,293 到300行代码是可以修改一些参数的。

--skip true        如果下载的目录已存在,则跳过关键字。 重新下载时需要这样做

--threads 4        设置你要下载的使用线程数量

--google true      是否使用谷歌搜索

--naver true       是否使用naver搜索

--full false       是否下载全分辨率图像而不是缩略图

--face flase       搜索的模式,不太懂,默认就好

优点:可以下载搜索到的所有图片,中途不会阻断,可完全下载。且不会重复。而且可一在两个网站进行搜索(也可以自动加其他网站的,改代码就行),所有我觉得这个很好。

缺点:最大的缺点就是,搜索的关键字不能是中文和英文关键字不能有间隔,故只能一个单词。我也很奇怪,我每次换中文关键字就一直在重新搜索,总是没下载,,可是有的时候中文又可以下载,不知道什么原因。要是大家知道原因,麻烦告知。

 

就到这了。

 

 

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值