AotucCrawler 快速爬取图片

最新推荐文章于 2024-09-07 08:59:02 发布

测试界筱筱

最新推荐文章于 2024-09-07 08:59:02 发布

阅读量595

点赞数 13

分类专栏：软件测试文章标签：功能测试软件测试自动化测试程序人生职场和发展

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_48811377/article/details/137175239

版权

软件测试专栏收录该内容

960 篇文章 22 订阅

订阅专栏

AotucCrawler 快速爬取图片

今天介绍一款自动化爬取图片项目。

GitHub: GitHub - YoongiKim/AutoCrawler: Google, Naver multiprocess image web crawler (Selenium)

Google, Naver multiprocess image web crawler (Selenium)

关键字

爬虫网站：Google、Naver （美、韩两大搜索引擎）
运行方式：Multiprocess（多进程）
爬取格式：image （图片）
基于自动化工具：Selenium （不解释）

如何使用

Git克隆AutoCrawler项目到本地
自行安装 Chrome 浏览器
安装依赖

> pip -r requirements.txt

certifi: 包含了很多可信任知名公司的证书/公钥。
chardet：提供自动检测字符编码的功能。
idna: 提供"对于RFC5891中定义的IDNA协议（Internationalised Domain Names in Applications）的支持"。
requests: 依赖于上面三个基础库，他主要用于根据图片链接下载图片。
selenium: 用于启动浏览器，爬取图片链接。
webdriver-manager: 用来管理selenium浏览器驱动的项目。

仔细分析别人项目，不管是源码还是依赖库都会有收获。webdriver-manager 就是我发现的一个宝藏项目，它简化的浏览器驱动的管理。

打开keywords.txt文件，编写爬取的关键字。

cat
dog

运行main.py 文件

> python main.py

参数说明:

--skip true：如果下载的关键字已经存在，是否跳过关键字，重新下载时需要设置。

--threads 4：下载使用线程数量

--google true：从google.com 下载。

--naver true: 从naver.com 下载。

--full false: 下载全分辨率图像而不是缩略图 (慢)。

--face false: Face search mode。

--no_gui auto: 使用 GUI 模式. (headless模式) 全分辨率模式可以加速, 但是缩略图模式不稳定。默认auto模式，如果full=false 默认使用使用GUI，如果full=true默认Headless模式。（可用于docker linux系统）。

--limit 0: 设置最大图片下载范围。 (0: 无限制)

--proxy-list: 逗号分隔的代理列表，如: socks://127.0.0.1:1080, http://127.0.0.1:1081，每个线程从列表中随即选择一个。

例如：

> python main.py --threads 2 --google true  --naver false --full false --limit 50

爬取的图片保存于 downloads/ 目录。

小结

因为使用的是Google网站，没有梯子的同学有点郁闷。项目本身并不复杂，两个python文件加一起不到1000行代码，我们完全可以花点时间替换为国内可访问的搜索引擎。
下载图片只是为了欣赏猫猫狗狗吗？当然不是，我们可用下载的图片训练 AI。

行动吧，在路上总比一直观望的要好，未来的你肯定会感谢现在拼搏的自己！如果想学习提升找不到资料，没人答疑解惑时，请及时加入扣群： 320231853，里面有各种软件测试+开发资料和技术可以一起交流学习哦。

最后感谢每一个认真阅读我文章的人，礼尚往来总是要有的，虽然不是什么很值钱的东西，如果你用得到的话可以直接拿走：

这些资料，对于【软件测试】的朋友来说应该是最全面最完整的备战仓库，这个仓库也陪伴上万个测试工程师们走过最艰难的路程，希望也能帮助到你！

测试界筱筱

关注

13
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。