【无标题】

原文链接:https://www.reddit.com/r/Open_Diffusion/comments/1dnnovb/dataset_of_datasets_ie_i_will_not_spam_the_group/ 

数据集地址:

完整的 Wikiart。215k 张图片。包含标题,但最好将它们作为“助手”,但仍然让我们选择的 VLLM 进行字幕制作。链接:https ://huggingface.co/datasets/matrixglitch/wikiart ?row=0
复古科幻。19k 张图片。无标题。链接:https ://huggingface.co/datasets/matrixglitch/vintagescifi-19k-nocaptions
高分辨率照片的非常详细的数据集是各种宽高比。Cogvlm 标题具有许多其他属性,如主色调和其他有趣的数据点。60 万张照片。统计数据:宽度:照片的宽度范围从 684 到 24,538 像素,平均宽度为 4,393 像素。高度:照片的高度范围从 363 到 26,220 像素,平均高度为 4,658 像素。长宽比:范围从 0.228 到 4.928,平均长宽比约为 1.016。百万像素:数据集包含从 0.54 到 536.8604 百万像素的照片,平均为 20.763 百万像素。链接:https ://huggingface.co/datasets/ptx0/photo-concept-bucket
Midjourney v6。每个提示包含 4 张图片的数据集。310k 个提示,总共 124 万张图片。链接:https://huggingface.co/datasets/CortexLM/midjourney-v6
各种徽标,风格各异。总共有 40 万个徽标。一些基本标签,但需要字幕。链接:https://huggingface.co/datasets/iamkaikai/amazing_logos_v4
史密森尼收藏。500 万张图片。不过,这里面有些奇怪的东西,可能需要过滤掉。链接:https ://www.si.edu/search/collection-images ?edan_q=&edan_fq=media_usage:CC0&oa=1
Unsplash,摄影。任何人都可以下载 25000 张图片。根据要求提供 500 万张图片,可能值得一看。链接:https://unsplash.com/data
llama3 标题图片。13 亿张图片。https ://arxiv.org/abs/2406.08478可以过滤我们想要的内容。链接:https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B
danbooru 风格标记的 sfw 动漫系列。140 万张图片“这是来自 Danbooru 2021 数据集的安全工作 (SFW) 过滤子集的 143 万张图片的 571 万个字幕。每张图片有 4 个字幕:1 个来自 CogVLM,1 个来自 llava-v1.6-34b,1 个 llava-v1.6-34b 清理,1 个 llava-v1.6-34b 缩短。” sfw 动漫数据集,每张图片有 4 个不同的字幕。链接:https://huggingface.co/datasets/CaptionEmporium/anime-caption-danbooru-2021-sfw-5m-hq
“PixelProse 是一个包含超过 1600 万条合成字幕的综合数据集,利用尖端的视觉语言模型 (Gemini 1.0 Pro Vision) 提供详细而准确的描述。” 链接:https://huggingface.co/datasets/tomg-group-umd/pixelprose
来自 laion 的 1600 万张图片。包含 laion desc、coco desc 和混合组合字幕。链接:https://huggingface.co/datasets/lodestones/CapsFusion-120M
imageinwords 集。非常密集且详细的标题。链接:https ://huggingface.co/datasets/google/imageinwords
docci 集。适用于区分对象和对比概念。链接:https://huggingface.co/datasets/google/docci
编辑 6/25/2024

-新数据集:从通用抓取数据集中提取的创意通用许可图像。2500 万张图片。包含基本数据,但所有内容都需要加标题。https  ://huggingface.co/datasets/fondant-ai/fondant-cc-25m

-另一个潜在好资源是手动浏览并从 civit loras 中获取来自优质 loras/作者的内容。这是一种获取数据集的简单方法,这些数据集被认为……咳咳……超出了学术收藏的常规范围。还可以节省时间来增加概念的多样性,因为 civit 上有许多非常酷的 loras 可以下载它们的数据集。

编辑 6/26/2024

ImageNet 数据集
HuggingFace:HuggingFace 上的 ImageNet 数据集
图片数量:14,197,122 张
描述:用于训练深度学习模型的大型带注释图像数据集。
COCO 数据集
HuggingFace:HuggingFace 上的 COCO 数据集
图片数量:330,000 张
描述:大规模物体检测、分割和字幕数据集。
CIFAR-10 数据集
HuggingFace:HuggingFace 上的 CIFAR-10 数据集
图片数量:60,000 张
描述:包含 10 个类别的 60,000 张 32x32 彩色图像。
CIFAR-100 数据集
HuggingFace:HuggingFace 上的 CIFAR-100 数据集
图片数量:60,000 张
描述:与 CIFAR-10 类似,但有 100 个类别。
FFHQ 数据集
GitHub:GitHub 上的 FFHQ 数据集
图片数量:70,000 张高质量图片
描述:生成模型的高质量图像数据集。
dSprites 数据集
HuggingFace:HuggingFace 上的 dSprites 数据集
图片数量:737,280 张
描述:具有 6 个基本真实潜在因子的 2D 形状数据集。
街景门牌号 (SVHN) 数据集
HuggingFace:HuggingFace 上的 SVHN 数据集
图片数量:600,000 张
描述:用于开发机器学习和对象识别算法的真实世界图像数据集。
非MNIST数据集
HuggingFace:HuggingFace 上的非 MNIST 数据集
图片数量:530,000 张
描述:用于机器学习研究的各种字体的字母图像。
Pascal VOC 2012 数据集
HuggingFace:HuggingFace 上的 Pascal VOC 2012 数据集
图片数量:11,530 张
描述:用于对象类别识别和检测的数据集。
CelebA 数据集
HuggingFace:HuggingFace 上的 CelebA 数据集
图片数量:202,599 张
描述:包含超过 200,000 张名人图像的大规模面部属性数据集。
时尚 MNIST 数据集
HuggingFace:HuggingFace 上的时尚 MNIST 数据集
图片数量:70,000 张
描述:Zalando 文章图片的数据集,旨在替代原始 MNIST 数据集。
斯坦福汽车数据集
HuggingFace:HuggingFace 上的斯坦福汽车数据集
图片数量:16,185 张
描述:包含 196 类高细节水平的汽车。
USPS 数据集
HuggingFace:HuggingFace 上的 USPS 数据集
图片数量:9,298 张
描述:美国邮政服务的手写数字数据集。
Flikr 30k 图片的标题还不错,但我认为还需要更详细地重新制作
https://huggingface.co/datasets/nlphuji/flickr30k


视觉大模型:

地址:https://huggingface.co/microsoft/Florence-2-large-ft

comfyUI实现:https://github.com/kijai/ComfyUI-Florence2?tab=readme-ov-file 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值