
多模态大规模图像分类/植物分类
文章平均质量分 88
多模态大规模图像分类/植物分类
强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
训练VLM(视觉语言模型)的经验
如果特别难的task,VLM模型根本没见过(比如文生图生成数据,输出的文本也和输入图之间的关系需要重学),那需要1-2w条业务数据,通用数据5:1。我们的数据比较短,训练10epoch的话,输出就非常短,往往不带主语。我个人觉得,精调这种任务,如果数据量大,在7B小模型和72B大模型上,在业务(垂域)上效果差异并不大,因为我们一般更关心业务和垂域的性能,而非要成为全面的通才。然后我发现个特别有意思的现象,我的业务数据是diffusion生成的图片,上面这些数据是自然图片,业务数据的通用能力几乎没有被维护。原创 2024-10-28 22:32:42 · 959 阅读 · 0 评论 -
突破大模型“内存边界” | Inf-CL重塑{图文对齐新基线},相同BN下内存最低降低281倍!
这将内存使用限制在图块大小和并行图块的数量上,允许在内存和计算效率之间进行权衡。使用8×A800,CLIP和OpenCLIP的内存消耗呈二次方增长,而Inf-CL实现了线性增长,在256k的批量大小下。原创 2024-10-28 22:16:38 · 1289 阅读 · 0 评论 -
什么是人在环 (HITL)?人在环中/人类在环
更新 on 2022 年 12 月 9 日ByDrew Dizzy Graham 在 Unsplash 上拍摄的照片在处理人工智能 (AI) 和机器学习 (ML) 时,您可能会遇到的术语之一是人机交互 (HITL)。就像听起来一样。HITL 是人工智能的一个分支,在创建机器学习模型时依赖人类和机器智能。人机交互方法意味着人们参与训练、调整和测试的算法周期。人类首先对数据进行标签,这有助于模型获得高质量、高数量的训练数据。然后,在人类开始微调模型之前,机器学习算法会学习根据数据做出决策。原创 2024-10-25 22:44:09 · 763 阅读 · 0 评论 -
深度学习训练过程可视化(附github源码)
Visual DL是百度开发的,基于echar和PaddlePaddle,支持PaddlePaddle,PyTorch和MXNet等主流框架。通过整个过程,想必大家对过程有详细了解,如果你技术好的,你可以通过深度学习平台直接可视化训练过程,那个过程想必比这个更加详细。本文介绍了多个能将深度学习训练过程进行可视化的工具,帮助大家更好地理解深度学习,非常实用。其实还有很多可视化工具,但是今天我要说的是,训练过程的可视化,与TF的可视化类似,但是。最终的成品即使对于完全不懂的新手来说,也没有使用门槛。原创 2024-10-25 21:10:48 · 482 阅读 · 0 评论 -
利用MMPreTrain微调图像分类模型
MMPreTrain是一款基于。原创 2024-10-25 16:05:21 · 749 阅读 · 0 评论 -
CNN是不是一种局部self-attention?
即Self-Attention的弹性比较大,所以需要比较多的training data,在训练资料比较小的时候就容易over-fitting,CNN的弹性比较小,在training data比较小的时候,训练结果比较好,在training data比较多的时候,CNN就没有办法从更大量的训练资料中得到好处了。比如,[a,b,c]->[a',0,c']。原创 2024-10-25 10:52:11 · 700 阅读 · 0 评论 -
【论文】REAL-FAKE分布匹配角度出发的训练数据合成理论框架
全文总结全文总结这篇文章提出了一种从分布匹配角度出发的训练数据合成理论框架,旨在提高合成数据在监督学习中的有效性。原创 2024-10-18 12:13:00 · 716 阅读 · 0 评论 -
涨点!改造Stable Diffusion合成更强训练数据,直逼真实数据性能
在人工智能技术的快速发展中,合成训练数据的使用变得越来越普遍,尤其因为其在数据增强、泛化评估和隐私保护等方面的优势。然而,当前合成数据在用于训练的深度学习模型时效率仍有限,限制了它的实际应用价值。为了解决这一挑战,最新的研究 "" 提出了一个理论框架,从分布匹配的角度出发,探讨了提高合成数据效能的机制,将 Stable Diffusion 改造成更强的训练数据合成器。这项工作不仅提出了一个理论框架,还通过大量实验验证了他们的合成数据在多样化的图像分类任务中的有效性。原创 2024-10-18 11:39:51 · 567 阅读 · 0 评论 -
[论文]卷积神经网络(CNN)和基于视觉变换器(Vision Transformer, ViT)的模型来进行植物识别
ResNet420模型通过结合深度学习和数据增强技术,以及自定义的损失函数,成功地提高了植物分类任务的准确率。该模型的设计强调了处理大规模数据集和类别不平衡问题的重要性,并展示了其在复杂图像分类任务中的潜力。原创 2024-10-18 10:33:39 · 909 阅读 · 0 评论 -
eva02精度,改进的Vit -> trV
这篇论文介绍了EVA-02,一种基于Transformer的视觉表示模型,通过掩码图像建模(MIM)预训练来重建强大且鲁棒的语言对齐视觉特征。原创 2024-10-15 10:37:52 · 1216 阅读 · 0 评论 -
EVA-02: 用于新世纪福音neo genesis战士的视觉表示
我们推出了 EVA-02,这是一种基于 Transformer 的下一代视觉表示,通过掩码图像建模预训练来重建强大且鲁棒的语言对齐视觉特征。凭借更新的纯 Transformer 架构以及来自开放且可访问的巨型 CLIP 视觉编码器的广泛预训练,EVA-02 在各种代表性视觉任务中表现出优于先前最先进方法的性能,同时使用明显更少的参数和计算预算。值得注意的是,EVA-02 仅使用 304M 个参数,仅使用公开可用的训练数据,在 ImageNet-1K 验证集上实现了 90.0 的出色微调 top-1 准确率。原创 2024-09-27 17:34:25 · 1122 阅读 · 0 评论 -
convnext_xxlarge.clip_laion2b_soup_ft_in12k timm模型库
on LAION。原创 2024-09-11 11:34:55 · 883 阅读 · 0 评论 -
TF-ICON:基于扩散的无训练跨域图像合成 (ICCV 2023)
在本文中,我们提出了 TF-ICON,这是一种新颖的无需训练的图像合成框架,它利用文本驱动的扩散模型的强大功能进行跨域图像引导合成。当前基于扩散的方法通常涉及昂贵的基于实例的优化或在定制数据集上对预训练模型进行微调,这可能会破坏其丰富的先验知识。相比之下,TF-ICON 可以利用现成的扩散模型执行。此外,我们引入了不包含任何信息的特殊提示,以促进文本驱动的扩散模型准确地将真实图像转换为潜在表示,从而形成合成的基础。我们的实验表明,配备出色提示的稳定扩散在。我们的工作是站在巨人的肩膀上。原创 2024-09-27 13:56:35 · 1146 阅读 · 0 评论 -
TPAMI 2024 | 数据不平衡克星,ProCo算法:长尾视觉识别的终极解决方案!
长尾分布经常出现在现实世界的数据中,其中大量的少数类别包含有限数量的样本。这种不平衡问题极大地损害了主要为平衡训练集设计的标准监督学习算法的性能。最近的研究表明,监督对比学习在缓解数据不平衡方面表现出良好的潜力。然而,监督对比学习的性能受到一个固有挑战的困扰:它需要足够大的训练数据批次来构建覆盖所有类别的对比对,然而,在类别不平衡的数据背景下,这一要求很难满足。为了克服这个障碍,我们提出了一种新的概率对比 (ProCo)学习算法,该算法估计特征空间中每个类的样本的数据分布,并据此对对比对进行采样。原创 2024-09-29 10:59:42 · 1356 阅读 · 0 评论 -
Plantnet源码解析
这段代码是一个训练模型的函数,涵盖了从数据加载、模型构建、设备设置到优化器配置等多个方面。对代码中每一行的逐行解释。进度条,迭代从 0 到。这段代码为训练模型的。原创 2024-08-13 20:50:55 · 869 阅读 · 0 评论 -
swift 训练InternVL2
【代码】swift 训练InternVL2。原创 2024-08-03 22:16:07 · 447 阅读 · 1 评论 -
如何在自定义数据集上微调 InternVL-Chat-V1-2How to Fine-tune InternVL-Chat-V1-2 on a Custom Dataset
为上一步中创建的 JSON 文件的路径。这些 shell 脚本中默认的预训练模型路径是。如果您使用的是 Plus 版本,如何在自定义数据集上微调 InternVL-Chat-V1-2。如果您遇到任何问题,请告诉我,我会更新培训指南以增强其可用性。完整的 LLM 需要 16 个 A100 80G GPU。在开始第二次微调之前,请先下载我们提供的。微调 LoRA 需要 2 个 A100。下载预训练模型后,准备自定义的。2. 准备自定义训练数据。在微调之前,请将 设置。预训练模型进行微调。原创 2024-07-23 20:28:53 · 1000 阅读 · 0 评论 -
InternVL官方微调
下载预训练模型后,准备自定义的SFT(监督微调)数据。创建类似于此示例的JSON 文件。JSON 文件的格式应为:"root"false1"length"},...例子:"root"false1"length"102025对于每种具体的JSONL(如纯文本数据、单图像数据、多图像数据、视频数据)的格式都可以按照本文档提供的描述进行组织。原创 2024-08-06 22:21:33 · 2201 阅读 · 0 评论 -
InternVL 最佳实践 swift微调
自定义数据集支持json, jsonl样式, 以下是自定义数据集的例子:(支持多轮对话, 图片支持传入本地路径或URL, 多张图片用逗号’,’分割)(支持纯文本数据)InternVL2模型除了以上数据格式外, 还支持多图多轮训练, 使用tag<image>标明图片在对话中的位置, 如果数据集中没有tag<image>, 默认放在最后一轮query的开头或者用表示图像路径和图像位置InternVL2模型支持视频数据集训练, 无需标明tagInternVL2。原创 2024-07-29 16:34:28 · 2516 阅读 · 0 评论 -
PlantNet-300K github页面
植物图像,涵盖 1081 个物种(类别)。Pl@ntNet-300K 的特点是类别模糊性高,类别不平衡性强。(如上文链接中的 1.1 版,而不是 1.0 版)。区别在于元数据文件,图像是相同的。选项是将存储模型权重和结果(指标)的目录的名称。您可以在文件中查看不同的选项。请注意,如果您想在另一个数据集上微调模型,则必须更改最后一层。如果您正在寻找论文中使用的超参数,您可以在。`utils.py 中的函数中找到示例。(在 Zenodo 中不可能),您可以。80% 的物种仅占图像总数的 11。原创 2024-08-01 15:31:18 · 845 阅读 · 0 评论 -
谷歌提出超强预训练模型CoCa,在ImageNet上微调Top-1准确率达91%!在多个下游任务上SOTA!
探索大规模预训练基础模型在计算机视觉中具有重要意义,因为这些模型可以快速转移到许多下游任务中。本文提出了对比字幕(Contrastive Captioner,CoCa)模型,它将图像文本编码器-解码器基础模型与对比损失和字幕损失结合起来进行预训练,从而从CLIP等对比方法和SimVLM等生成方法中吸收两种模型的长处。原创 2024-08-01 14:35:22 · 1036 阅读 · 0 评论 -
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”-开源模型中ImageNet准确度最高
通过开源社区的建设,OpenGVLab帮助开发者显著降低通用视觉模型的开发门槛,用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型,高效实现对长尾场景的覆盖,推动通用AI技术的规模化应用。,为满足快速增长的各式应用场景需求,发展更为通用的人工智能模型已成为科技前沿的核心焦点问题。此次全新发布的“书生2.5”致力于多模态多任务通用模型的构建,可接收处理各种不同模态的输入,并采用统一的模型架构和参数处理各种不同的任务,促进不同模态和任务之间在表示学习方面的协作,逐步实现通用人工智能领域的融会贯通。原创 2024-08-01 14:48:45 · 623 阅读 · 0 评论 -
PlantNet-300K:具有高标签模糊度和长尾分布的植物图像数据集
对于每个物种,80%的图像被放置在训练集中(ntrain = 243,916),10%的图像被放置在验证集中(nval = 31,118),10%的图像被放置在测试集中(ntest = 31,112),每个集合中的每个物种至少有一个图像。我们强调了数据集的两个特殊特征,这是图像获取方式和植物形态内在多样性所固有的:(I)数据集具有很强的类别不平衡性,即少数物种占图像的大部分,以及(ii)许多物种在视觉上是相似的,即使对于专家的眼睛也很难识别。然而,这是不实际的,因为我们不知道分布P和pl(x)。原创 2024-07-22 21:16:03 · 877 阅读 · 0 评论 -
ImageNet数据集简介、下载、使用方法之详细攻略- 多模态
ImageNet数据集是一个计算机视觉数据集,是由斯坦福大学的李飞飞教授带领创建。该数据集包合 14,197,122张(一千四百万)图片和21,841个Synset索引。Synset是WordNet层次结构中的一个节点,它又是 一组同义词集合。ImageNet数据集一直是评估图像分类算法性能的基准。ImageNet 数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集。2016 年ImageNet 数据集中已经超过干万张图片,每一张图片都被手工标定好类别。原创 2024-08-01 14:43:02 · 1132 阅读 · 0 评论 -
图像分类的 InternImage github
由于缺乏计算资源,deepspeed 训练脚本目前仅针对前几个 epoch 进行了验证。要将 deepspeed 检查点转换为 pytorch fp32 检查点,您可以使用以下代码片段。中启动训练,如下所示(以小型和大型 GPU 为例)。,并将所有图像移动到此文件夹中标记的子文件夹中。以下是具有 8 个 GPU 的 InternImage-H 的参考 GPU 内存成本。此文件夹包含用于图像分类的 InternImage 的实现。移动到标记的子文件夹。论文结果是使用 中的配置训练的模型获得的。原创 2024-08-01 15:10:26 · 1083 阅读 · 0 评论