Shutterstock 图片与视频抓取器(ShutterScrape)安装与使用指南
项目地址:https://gitcode.com/gh_mirrors/sh/shutterscrape
项目概述
ShutterScrape 是一个专为批量下载 Shutterstock 图片和视频设计的网络爬虫工具。利用 Selenium 进行浏览器自动化操作,以及 BeautifulSoup 来解析网页内容,该工具提供高效的数据采集功能。此外,它还支持从 Getty Images 下载视频,通过 gettyscrape.py
脚本实现。
目录结构及介绍
以下是 ShutterScrape
项目的基本目录结构说明:
gettyscrape.py
: 用于从Getty Images抓取视频的脚本。shutterscrape.py
: 主程序,负责在 Shutterstock 上搜索并下载图片或视频。LICENSE.md
: 许可证文件,说明了项目的使用条件,遵循 MIT 许可证。README.md
: 包含项目简介、设置步骤、运行方法等重要信息。requirements.txt
(可能未直接列出,但通常会有): 列出了运行项目所需的Python包及其版本。
项目启动文件介绍
shutterscrape.py
这是项目的启动文件。使用此脚本前需先进行必要的配置。启动流程简单明了:
-
执行之前确保已安装所有依赖。
-
在终端中运行命令:
python shutterscrape.py
-
根据交互提示,输入搜索模式 (
i
为图片,v
为视频),搜索关键词,需要搜索的术语数量,以及要抓取的页面数。
运行示例:
假设你想下载关于“风景”的图片,搜索3个相关术语,遍历5页,操作流程如下:
- 选择图片搜索:输入
i
。 - 输入术语数量:
3
。 - 分别输入三个关键词,如“山”、“海”、“森林”。
- 输入要爬取的页面数:
5
。
之后,工具将自动执行抓取任务。
项目配置文件介绍
尽管直接的“配置文件”没有特别指出,但这个项目的配置主要通过环境变量或者直接在运行命令时指定参数来完成。主要配置包括:
-
环境变量配置:
- 设置 Python 解释器路径 (
python.exe
) 和 ChromeDriver 路径。这一步通常是对于自动化工具手动设置的部分,可以通过系统环境变量来配置,以确保Selenium
正确找到 ChromeDriver。
- 设置 Python 解释器路径 (
-
运行时配置: 所有的功能性配置(如搜索关键词、页面数等)是在运行
shutterscrape.py
时交互式提供的,不涉及独立的配置文件。
安装依赖
在开始项目前,确保安装以下Python库:
pip install beautifulsoup4 selenium lxml
如果需要处理中文字符或特定文件类型,根据实际情况可能还需额外的库或配置。
总结来说,ShutterScrape提供了简洁直观的接口,让用户无需深入了解复杂的网络爬虫技术即可实现高效的媒体资源下载。记得在使用过程中遵守 Shutterstock 和 Getty Images 的服务条款,合法合规地使用数据。
shutterscrape Web scrapper for Shutterstock 项目地址: https://gitcode.com/gh_mirrors/sh/shutterscrape