AI生成曾小健
"AI生成曾小健2"是该号副号。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是AI生成式技术、AI相关技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
如果需要看商科/金融相关的请移步CSDN: 量化交易曾小健(金融号)
展开
-
说一说internVL2的基本原理
多模态编码器是一种能够处理和融合来自不同模态(如文本、图像、视频等)信息的模型架构。它通过对不同类型的数据进行编码,提取出各自的特征,并在一个统一的空间中进行对齐和融合,从而实现更深层次的理解和推理。原创 2024-08-22 23:09:57 · 2 阅读 · 0 评论 -
多模态大模型(MLLM):架构篇
该架构中包含的子模块主要有:Multimodal Encoding、Input-side Projection、Backbone LLMs、Decoding-side Projection、Multimodal Generaton。LLM是系统的关键连接部分,直接从外部接收多模态信息,并以更流畅的方式将指令传递给解码器/生成器。LLM的角色是感知多模态信息,通过Encoder-LLM-Decoder 结构做出反应。的,作为核心决策模块(即大脑或中央处理器)。下一篇:《多模态大模型架构:子模块介绍》原创 2024-08-12 13:34:11 · 362 阅读 · 0 评论 -
端侧可用的 GPT-4V 级单图、多图、视频多模态大模型
是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。自2024年2月以来,我们共发布了5个版本模型,旨在实现: 🔥🔥🔥MiniCPM-V系列的最新、性能最佳模型。总参数量 8B,单图、多图和视频理解性能。在单图理解上,它取得了优于GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现,并进一步优化了 MiniCPM-Llama3-V 2.5 的 OCR、可信行为、多语言支持以及端侧部署等诸多特性。原创 2024-08-13 12:15:19 · 260 阅读 · 0 评论 -
迈向多图长序列理解,阿里开源多模态大模型 mPLUG-Owl3
2024年08月15日 12:16山东多模态多轮对话场景长视频理解场景阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式,到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯,再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。原创 2024-08-20 21:03:30 · 546 阅读 · 0 评论 -
中文多模态大模型基准8月榜单发布!8大维度30个测评任务,3个模型超过70分 superCLUE V
GPT-4o取得74.36分,领跑多模态基准。其中基础多模态认知能力和应用能力均有70+分的表现,在技术和应用方面均有一定领先优势。原创 2024-08-03 21:37:23 · 943 阅读 · 0 评论 -
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
首先,平均而言,MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型。为了评估不同的设计决策,研究者使用了零样本和少样本(4 个和 8 个样本)在多种 VQA 和图像描述任务上的性能:COCO Cap tioning 、NoCaps 、TextCaps 、VQAv2 、TextVQA 、VizWiz 、GQA 和 OK-VQA。需要注意的是,与其他消融试验不同的是,研究者本次使用了 2.9B LLM(而不是 1.2B),以确保有足够的容量来使用一些较大的图像编码器。原创 2024-08-03 21:42:31 · 910 阅读 · 0 评论 -
多模态基础(三):LMM 的研究方向
毫无疑问,一般的多模态系统,特别是 LMM,将比大型语言模型更具影响力。Generating Images with Multimodal Language Models (Koh et al., Jun 2023) 是一篇很棒的论文,展示了 LMM 如何在生成文本的同时可以生成和检索图像。例如,如果我们要求 ChatGPT 解释 RLHF,有效的解释可能需要图表、方程,甚至简单的动画。以下是一些令人兴奋的方向。虽然他们的架构为我们理解 LMM 的构建方式奠定了良好的基础,但该领域已经取得了许多新的进展。原创 2024-08-12 15:05:08 · 570 阅读 · 0 评论 -
字节算法岗面试,问的贼细! 多模态
原创 机器猫2024年06月14日 08:10上海。原创 2024-08-11 16:02:25 · 281 阅读 · 0 评论 -
粗看最近爆火的mem0个性化轻量级框架:兼谈多模态数据的tokenizer
本文主要介绍了两件事,一个是mem0,类似于agent,一个是不同模态的tokenizer,这些都是多模态的基础,感兴趣的可以多看看。原创 2024-07-23 20:08:36 · 730 阅读 · 0 评论 -
统一多模态大模型评估,加速多模态智能涌现
该框架的实现不仅为多模态模型评估提供了新的工具,也为未来研究和开发铺平了道路,包括视频多模态评估、少样本评估模式以及批量推断加速等,展现了其强大的潜力和前瞻性。原创 2024-08-04 23:04:08 · 826 阅读 · 0 评论 -
多模态基础(二):OpenAI经典之作CLIP vs LMM的黎明Flamingo
我的理论是,由于 OpenAI 已经在整个互联网上搜索了他们的 GPT 模型,他们可能只是查询了他们的内部数据库。尽管该模型可以生成文本响应,但在 CLIP 评估的所有视觉语言理解任务上,其性能始终比 CLIP 的最佳性能模型低 10% 左右。由于 CLIP 的训练过程在概念上类似于图像到文本检索和文本到图像检索,因此 CLIP“为图像检索或搜索等广泛应用的任务展现了巨大的前景。从简化的角度来看,Flamingo 是 CLIP + 语言模型,添加了一些技术,使语言模型能够根据视觉和文本输入生成文本。原创 2024-07-23 17:42:58 · 617 阅读 · 0 评论 -
从图像到万象,InternVL 2.0 书生·万象多模态大模型发布!
目录收起代码开源/模型使用方法:76B大模型,司南评测优于GPT-4O8B端侧小模型,消费级单卡可部署试用Demo:正文开始!原创 2024-07-23 16:54:22 · 1610 阅读 · 0 评论 -
数据、180B模型、训练方法一并开源,这个世界级多模态大模型可媲美chatgpt 96%的效果
他来了,他来了,一个集生成、开放问答、编程、画图、翻译、头脑风暴等15大类能力,支持子任务超过60种的多模态大语言模型TigerBot正式亮相,包含70亿参数和1800亿参数两个版本。API: chat, plugin, finetune, 让用户能在半小时内无代码的训练和使用专属于自己的大模型和数据,领域数据:涵盖金融,法律,百科,广邀大模型应用开发者,一起打造中国的世界级的应用。指令完成监督微调的创新算法以获得更好的可学习型(learnability),通信问题,使得在千卡环境下数月无间断,原创 2024-08-03 21:31:48 · 537 阅读 · 0 评论 -
浙大、蚂蚁等提出TokenPacker,多模态大模型中的高质量视觉token压缩方法原创
(3)此外,为了能够包含更丰富全面的视觉表达,我们引入了 CLIP-ViT-L 多层特征信息。对于综合理解的 MMMU、MME 指标下,我们的方法在 1088x1088 的分辨率下取得了最好的性能,分别为 38.8 与 1595/356,较大幅度领先 LLaVA-NeXT 与 Mini-Gemini-HD,而视觉 token 个数约为这些方法的 1/3,可大幅提升模型效率。(1)首先,将来自视觉编码器(ViT-L)的视觉特征 下采样,得到输入图像的低分辨率、粗糙的特征表示 ,其中 , 为下采样倍数。原创 2024-08-11 17:06:04 · 287 阅读 · 0 评论 -
ImageNet数据集简介、下载、使用方法之详细攻略- 多模态
ImageNet数据集是一个计算机视觉数据集,是由斯坦福大学的李飞飞教授带领创建。该数据集包合 14,197,122张(一千四百万)图片和21,841个Synset索引。Synset是WordNet层次结构中的一个节点,它又是 一组同义词集合。ImageNet数据集一直是评估图像分类算法性能的基准。ImageNet 数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集。2016 年ImageNet 数据集中已经超过干万张图片,每一张图片都被手工标定好类别。原创 2024-08-01 14:43:02 · 570 阅读 · 0 评论 -
stable diffusion中的UNet结构,中使用 CLIP 的 ViT-L/14 的文本编码器),用于将用户输入的 Prompt 文本转化成 text embedding
文本编码器(在 Stable DiffusioViT-L/14这三个部分是相互独立的,其中最重要的是 UNET 结构。UNET 是从噪音中生成图像的主要组件,在预测过程中,通过反复调用 UNET,将 UNET 预测输出的从原有的噪声中去除,得到逐步去噪后的图像表示。Stable Diffusion Model 的UNET 包含约 860M的参数,以 float32 的精度编码大概需要3.4G 的存储空间。原创 2023-06-05 15:56:30 · 1948 阅读 · 1 评论 -
InterViT-6B-448px-V1-5 模型卡 InternVL2-40B
其中基础瓦片大小为 448×448,瓦片数量范围为 1 至 12。同时,我们增强了预训练数据集的数据规模、质量和多样性,使得。InterViT-6B-448px-V1-5 模型卡。InternVL-聊天-V1-2-Plus。实习生ViT-6B-448px-V1-5。实习生ViT-6B-448px-V1-2。实习生ViT-6B-448px-V1-0。支持动态分辨率,超强 OCR(🔥新)InternVL-聊天-V1-5。InternVL-聊天-V1-2。InternVL-聊天-V1-1。原创 2024-07-23 17:07:34 · 1083 阅读 · 0 评论 -
详解vit_base_patch16_224
ViT-Base模型的核心思想是将输入图像划分为多个小块(patches),并使用Transformer架构来处理这些小块。具体来说,ViT-Base使用16x16像素的patch大小,输入图像的尺寸为224x224像素,这意味着每张图像将被划分为49个patch(22416×22416=14×14=19616224×16224=14×14=196个patch)。ViT-Base(ViT-B/16)通过将图像处理任务转化为序列处理任务。原创 2024-08-20 21:29:51 · 723 阅读 · 0 评论 -
ViT 原理解析 (Transformers for Image Recognition at Scale)
这里增加了 class token,class token的维度是[1,768],然后将其与第1步得到的tokens进行拼接,即Cat([1, 768], [196, 768]) -> [197, 768]。从公式可以看出,其实一个词语的位置编码是由不同频率的余弦函数函数组成的,从低位到高位,余弦函数对应的频率由 1 降低到了 110000 ,按照论文中的说法,也就是,波长从 2𝜋 增加到了 10000⋅2𝜋。下面来看下ViT是如何做的。等文本数据不同,图像中包含更多的信息,并且是以像素值的形式呈现。原创 2024-08-20 21:11:16 · 815 阅读 · 0 评论