🧭 一、项目背景与目标
1. Getty Images 简介
Getty Images 是全球最大的商业图库网站之一,拥有数以亿计的高质量摄影图片、插图、视频等视觉内容资源,涵盖新闻、体育、娱乐、创意、历史等多个领域。它为媒体、广告公司、企业提供图像服务。
2. 采集需求分析
目标:通过关键词搜索批量采集 Getty Images 的图片元数据。
需要抓取的主要元数据字段包括:
- 图片标题(Title)
- 图片ID(Image ID)
- 图片预览链接(Thumbnail URL)
- 图片来源(Contributor)
- 图片创作时间(Creation Date)
- 图片描述(Description)
- 图片类别/关键词(Categories/Keywords)
- 图片详细页URL(Detail URL)