强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
lora微调的基本原理
前向传播使用调整后的参数矩阵 W′W'W′ 进行计算,以生成网络的输出。反向传播也基于调整后的参数矩阵 W′W'W′,计算损失函数相对于 W′W'W′ 的梯度,并通过这些梯度更新低秩矩阵 AAA 和 BBB。通过这种方式,LoRA微调能够在保持原始模型参数稳定的同时,仅通过少量参数的调整,实现对模型的有效微调。原创 2024-06-11 10:27:36 · 1793 阅读 · 0 评论 -
stable diffusion基本原理
Stable Diffusion基于扩散模型的原理,通过模拟数据从噪声到目标分布的逆向过程来生成高质量的图像。其训练过程包括正向扩散和逆向去噪,最终通过逐步去噪生成逼真的图像。原创 2024-06-11 10:32:58 · 1068 阅读 · 0 评论 -
以DeepSeek-VL为例,详解视觉语言模型原理及代码
目前图像占位符(<image_placeholder>)在token id中仅占一个位置(对应的token id为100015),但最终输入到LLM中的图像占的token数量是576,需要提前扩充,通过如下代码找到输入的token id中图像的位置,然后调用add_image_token函数将每一个图像占位符复制成576个,此时可以得到最终的输入到LLM中的token id list。然后就是过12层VIT的block了,最终的输出形状也为(576,1024)。原创 2024-09-13 14:54:19 · 1863 阅读 · 0 评论 -
《深入浅出多模态》中:多模态模型原理总结
CLIP采用双塔结构,其核心思想是通过海量的弱监督文本对,通过对比学习,将图片和文本通过各自的预训练模型获得编码向量,通过映射到统一空间计算特征相似度,通过对角线上的标签引导编码器对齐,加速模型收敛。CLIP是一种弱对齐,可应用于图文相似度计算和文本分类等任务。思想:图文特征对齐、指令微调、多任务结构:图像编码器Image Encoder+-大语言模型LLM+对齐模块Loss设计:参考对比学习探索不同的图文特征对齐方式,同时增加指令微调能力。原创 2024-11-22 13:50:36 · 809 阅读 · 0 评论 -
详解stable diffusion基本原理 和计算步骤
这个马尔可夫链通过逐步添加噪声,使模型学习如何从噪声中恢复图像。模型训练的目标是学会逆转这些步骤,即从噪声中重建清晰的图像。原创 2024-11-15 10:21:05 · 603 阅读 · 0 评论 -
小白也可以清晰理解diffusion原理: DDPM
现在大火的stable diffusion系列,Sora,stable video diffusion等视频生成模型都是基于了diffusion模型。而diffusion模型的基石就是DDPM算法(之后有一些diffusion的加速方法,但是原理上还是DDPM),所以需要我们对DDPM有一定的了解,了解了DDPM可以帮助我们更好的理解diffusion模型。DDPM全称是Denoising Diffusion Probabilistic Models,最开始提出是用于去噪领域。原创 2024-09-28 22:17:15 · 886 阅读 · 0 评论 -
详解Byte Pair Encoding (BPE)原理
综上所述,预定的BPE词汇表大小是通过综合考虑数据集规模、模型需求、合并次数、稀有词处理能力以及具体应用场景来确定的。这种灵活性使得BPE能够在不同任务中表现出色,同时保持有效性和效率。相关事件事件名称事件时间事件概述Byte Pair Encoding (BPE) 的提出和应用首次提出于1994,2015后广泛应用于NLP领域。技术发展BPE是一种用于自然语言处理的子词嵌入技术,通过合并文本中最频繁的字符对来创建新的子词单元,以减少词汇表大小并提高文本处理效率。原创 2024-12-13 21:30:08 · 761 阅读 · 0 评论 -
[面试]softmax及数学原理
zn]\mathbf{z} = [z_1, z_2, \ldots, z_n]z=[z1,z2,…,zn]\mathbf{z} = [z_1, z_2, \ldots, z_n]z=[z1,z2,…Softmax函数的数学原理在于将任意实数向量转换为概率分布,使得每个元素的值介于0和1之间,且总和为1。Softmax在神经网络中是一个关键函数,尤其用于多类分类问题的输出层。这些特性使Softmax成为处理多分类问题和注意力机制的理想选择。出是连续的,适合用于概率预测。是可微的,适合用于反向传播。原创 2024-11-15 09:55:16 · 432 阅读 · 0 评论 -
详细说说VIT架构和Transformer架构的异同
ViT是将Transformer架构应用于视觉领域的一种创新尝试,它通过自注意力机制对图像进行建模。然而,由于两者在输入数据结构、架构设计及应用场景上的不同,导致它们各自在各自领域内有着不同的优势和劣势。Transformer更适合处理序列数据,而ViT则为视觉任务提供了一种新的思路和方法。ViT(Vision Transformer)和Transformer架构在计算机视觉和自然语言处理领域都有广泛的应用。它们虽然共享一些核心组件,但在设计和应用上存在显著差异。通过上述步骤,ViT将。原创 2024-12-11 09:56:09 · 1152 阅读 · 0 评论 -
详解transformer中的kv cache,和rwkv的cache有什么异同
Transformer中的KV Cache和RWKV的Cache在机制和应用上有显著的异同。原创 2024-11-22 11:44:28 · 966 阅读 · 0 评论 -
详解BFLOAT16精度,和fp32和fp16的优缺点和异同
BFLOAT16通过增加指数位数来扩大数值范围,同时牺牲尾数精度以节省存储空间和提高计算效率。它在处理大规模神经网络时表现出色,但在需要高精度的小范围计算任务中可能不如FP32和FP16合适。选择合适的浮点数格式需要根据具体任务的需求、硬件支持以及对精度和资源消耗的权衡来决定。BFLOAT16和FP32各有其优缺点。BFLOAT16通过牺牲一些精度来保持与FP32相同的数值范围,同时减少内存占用和提高计算效率。这使得BFLOAT16特别适合于深度学习等需要大量计算资源的应用场景。原创 2024-12-11 15:19:10 · 1227 阅读 · 0 评论 -
Megatron训练框架和deepspeed训练框架的异同和优劣[大模型面试]
AnswerMegatron和DeepSpeed是两个用于大规模深度学习模型训练的框架,它们各有特点,但也存在一些共同之处。原创 2024-07-17 16:17:33 · 2986 阅读 · 0 评论 -
yolov8和yolov11的异同和优缺点有哪些
YOLOv8的优点强大的实时检测能力。灵活的架构设计,支持多种尺寸的模型选择。通过无锚点设计和解耦头部结构提高了检测速度和准确性。YOLOv8的缺点在某些复杂场景下可能不如YOLOv11高效。计算资源需求相对较高,尤其是在GPU上。YOLOv11的优点在精度和速度上都有显著提升,特别是在CPU上的表现更加出色。引入了新的模块和机制,如C2PSA和DCNv4卷积,进一步增强了模型的适应性和鲁棒性。YOLOv11的缺点在GPU上的执行速度可能不如YOLOv8快。原创 2024-11-29 12:13:45 · 4804 阅读 · 0 评论 -
micro f1 和macro f1的异同
权重分配不同:micro f1对所有样本赋予相同权重,macro f1对每个类别赋予相同权重。应用场景不同:micro f1适用于类别数量差异不大的情况,macro f1更适用于不平衡数据集。数值大小不同:macro f1通常比micro f1大,因为它不受大类别的主导影响。此外,还有一种weighted f1,它根据每个类别的样本数量进行加权平均。在类别分布极度不平衡时,可以考虑使用weighted f1。原创 2024-05-27 17:26:56 · 1445 阅读 · 0 评论 -
LoRa微调和prefix微调还有adapter微调最大的区别和异同是什么,最好详细说明,最后能以表格显示
特性LoRa微调Prefix微调Adapter微调核心机制引入低秩矩阵添加可学习前缀向量插入适配器模块参数调整方式更新低秩矩阵优化前缀向量冻结大部分参数,仅调整适配器计算效率高效,减少更新参数高效,不修改模型结构高效,减少训练成本保留预训练知识部分保留完全保留大部分保留应用灵活性较高非常高较高推理性能影响较小较小可能增加延迟这些方法各有优势和局限,选择合适的方法通常取决于具体任务需求、计算资源及性能要求。原创 2024-11-20 16:30:07 · 429 阅读 · 0 评论 -
聊聊多模态之 BLIP 系列
作者:樊奇,上海交通大学硕士生全文约 2400 字,预计阅读时间 6 分钟在上一期 MiniGPT-4 的内容中,我们提到了来自BLIP 的 QForme。BLIP 同样作为多模态大模型的早期工作,尽管它的很多设计逐渐淡出 MLLM(Multimodal Large Language Model) 的发展主流,但其对于 MLLM 发展的意义仍是不可被磨灭的。因此,我们将在本期内容中聊一聊 BLIP 系列,希望对大家有所帮助。原创 2024-10-20 21:17:14 · 121 阅读 · 0 评论 -
clip和blip的区别
CLIP侧重于学习视觉-语言对齐,适用于图像分类、检索等任务。BLIP在CLIP的基础上,增强了生成能力,能够生成高质量图像描述,应用范围更广。BLIP通过CapFilt模块降低了训练数据噪声,提高了数据质量。新的BLIP-2模型进一步降低了训练成本,通过复用CLIP视觉编码器和大型语言模型实现了强大的视觉-语言理解和生成能力。原创 2024-06-11 10:46:29 · 3024 阅读 · 0 评论 -
说一说internVL2的基本原理
多模态编码器是一种能够处理和融合来自不同模态(如文本、图像、视频等)信息的模型架构。它通过对不同类型的数据进行编码,提取出各自的特征,并在一个统一的空间中进行对齐和融合,从而实现更深层次的理解和推理。原创 2024-08-22 23:09:57 · 479 阅读 · 0 评论 -
多模态大模型(MLLM):架构篇
该架构中包含的子模块主要有:Multimodal Encoding、Input-side Projection、Backbone LLMs、Decoding-side Projection、Multimodal Generaton。LLM是系统的关键连接部分,直接从外部接收多模态信息,并以更流畅的方式将指令传递给解码器/生成器。LLM的角色是感知多模态信息,通过Encoder-LLM-Decoder 结构做出反应。的,作为核心决策模块(即大脑或中央处理器)。下一篇:《多模态大模型架构:子模块介绍》原创 2024-08-12 13:34:11 · 572 阅读 · 0 评论 -
端侧可用的 GPT-4V 级单图、多图、视频多模态大模型
是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。自2024年2月以来,我们共发布了5个版本模型,旨在实现: 🔥🔥🔥MiniCPM-V系列的最新、性能最佳模型。总参数量 8B,单图、多图和视频理解性能。在单图理解上,它取得了优于GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现,并进一步优化了 MiniCPM-Llama3-V 2.5 的 OCR、可信行为、多语言支持以及端侧部署等诸多特性。原创 2024-08-13 12:15:19 · 474 阅读 · 0 评论 -
迈向多图长序列理解,阿里开源多模态大模型 mPLUG-Owl3
2024年08月15日 12:16山东多模态多轮对话场景长视频理解场景阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式,到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯,再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。原创 2024-08-20 21:03:30 · 675 阅读 · 0 评论 -
中文多模态大模型基准8月榜单发布!8大维度30个测评任务,3个模型超过70分 superCLUE V
GPT-4o取得74.36分,领跑多模态基准。其中基础多模态认知能力和应用能力均有70+分的表现,在技术和应用方面均有一定领先优势。原创 2024-08-03 21:37:23 · 1419 阅读 · 0 评论 -
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
首先,平均而言,MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型。为了评估不同的设计决策,研究者使用了零样本和少样本(4 个和 8 个样本)在多种 VQA 和图像描述任务上的性能:COCO Cap tioning 、NoCaps 、TextCaps 、VQAv2 、TextVQA 、VizWiz 、GQA 和 OK-VQA。需要注意的是,与其他消融试验不同的是,研究者本次使用了 2.9B LLM(而不是 1.2B),以确保有足够的容量来使用一些较大的图像编码器。原创 2024-08-03 21:42:31 · 1026 阅读 · 0 评论 -
多模态基础(三):LMM 的研究方向
毫无疑问,一般的多模态系统,特别是 LMM,将比大型语言模型更具影响力。Generating Images with Multimodal Language Models (Koh et al., Jun 2023) 是一篇很棒的论文,展示了 LMM 如何在生成文本的同时可以生成和检索图像。例如,如果我们要求 ChatGPT 解释 RLHF,有效的解释可能需要图表、方程,甚至简单的动画。以下是一些令人兴奋的方向。虽然他们的架构为我们理解 LMM 的构建方式奠定了良好的基础,但该领域已经取得了许多新的进展。原创 2024-08-12 15:05:08 · 694 阅读 · 0 评论 -
字节算法岗面试,问的贼细! 多模态
原创 机器猫2024年06月14日 08:10上海。原创 2024-08-11 16:02:25 · 383 阅读 · 0 评论 -
粗看最近爆火的mem0个性化轻量级框架:兼谈多模态数据的tokenizer
本文主要介绍了两件事,一个是mem0,类似于agent,一个是不同模态的tokenizer,这些都是多模态的基础,感兴趣的可以多看看。原创 2024-07-23 20:08:36 · 1064 阅读 · 0 评论 -
统一多模态大模型评估,加速多模态智能涌现
该框架的实现不仅为多模态模型评估提供了新的工具,也为未来研究和开发铺平了道路,包括视频多模态评估、少样本评估模式以及批量推断加速等,展现了其强大的潜力和前瞻性。原创 2024-08-04 23:04:08 · 969 阅读 · 0 评论 -
多模态基础(二):OpenAI经典之作CLIP vs LMM的黎明Flamingo
我的理论是,由于 OpenAI 已经在整个互联网上搜索了他们的 GPT 模型,他们可能只是查询了他们的内部数据库。尽管该模型可以生成文本响应,但在 CLIP 评估的所有视觉语言理解任务上,其性能始终比 CLIP 的最佳性能模型低 10% 左右。由于 CLIP 的训练过程在概念上类似于图像到文本检索和文本到图像检索,因此 CLIP“为图像检索或搜索等广泛应用的任务展现了巨大的前景。从简化的角度来看,Flamingo 是 CLIP + 语言模型,添加了一些技术,使语言模型能够根据视觉和文本输入生成文本。原创 2024-07-23 17:42:58 · 810 阅读 · 0 评论 -
从图像到万象,InternVL 2.0 书生·万象多模态大模型发布!
目录收起代码开源/模型使用方法:76B大模型,司南评测优于GPT-4O8B端侧小模型,消费级单卡可部署试用Demo:正文开始!原创 2024-07-23 16:54:22 · 2595 阅读 · 0 评论 -
数据、180B模型、训练方法一并开源,这个世界级多模态大模型可媲美chatgpt 96%的效果
他来了,他来了,一个集生成、开放问答、编程、画图、翻译、头脑风暴等15大类能力,支持子任务超过60种的多模态大语言模型TigerBot正式亮相,包含70亿参数和1800亿参数两个版本。API: chat, plugin, finetune, 让用户能在半小时内无代码的训练和使用专属于自己的大模型和数据,领域数据:涵盖金融,法律,百科,广邀大模型应用开发者,一起打造中国的世界级的应用。指令完成监督微调的创新算法以获得更好的可学习型(learnability),通信问题,使得在千卡环境下数月无间断,原创 2024-08-03 21:31:48 · 613 阅读 · 0 评论 -
浙大、蚂蚁等提出TokenPacker,多模态大模型中的高质量视觉token压缩方法原创
(3)此外,为了能够包含更丰富全面的视觉表达,我们引入了 CLIP-ViT-L 多层特征信息。对于综合理解的 MMMU、MME 指标下,我们的方法在 1088x1088 的分辨率下取得了最好的性能,分别为 38.8 与 1595/356,较大幅度领先 LLaVA-NeXT 与 Mini-Gemini-HD,而视觉 token 个数约为这些方法的 1/3,可大幅提升模型效率。(1)首先,将来自视觉编码器(ViT-L)的视觉特征 下采样,得到输入图像的低分辨率、粗糙的特征表示 ,其中 , 为下采样倍数。原创 2024-08-11 17:06:04 · 429 阅读 · 0 评论 -
ImageNet数据集简介、下载、使用方法之详细攻略- 多模态
ImageNet数据集是一个计算机视觉数据集,是由斯坦福大学的李飞飞教授带领创建。该数据集包合 14,197,122张(一千四百万)图片和21,841个Synset索引。Synset是WordNet层次结构中的一个节点,它又是 一组同义词集合。ImageNet数据集一直是评估图像分类算法性能的基准。ImageNet 数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集。2016 年ImageNet 数据集中已经超过干万张图片,每一张图片都被手工标定好类别。原创 2024-08-01 14:43:02 · 1135 阅读 · 0 评论 -
stable diffusion中的UNet结构,中使用 CLIP 的 ViT-L/14 的文本编码器),用于将用户输入的 Prompt 文本转化成 text embedding
文本编码器(在 Stable DiffusioViT-L/14这三个部分是相互独立的,其中最重要的是 UNET 结构。UNET 是从噪音中生成图像的主要组件,在预测过程中,通过反复调用 UNET,将 UNET 预测输出的从原有的噪声中去除,得到逐步去噪后的图像表示。Stable Diffusion Model 的UNET 包含约 860M的参数,以 float32 的精度编码大概需要3.4G 的存储空间。原创 2023-06-05 15:56:30 · 2454 阅读 · 1 评论 -
InterViT-6B-448px-V1-5 模型卡 InternVL2-40B
其中基础瓦片大小为 448×448,瓦片数量范围为 1 至 12。同时,我们增强了预训练数据集的数据规模、质量和多样性,使得。InterViT-6B-448px-V1-5 模型卡。InternVL-聊天-V1-2-Plus。实习生ViT-6B-448px-V1-5。实习生ViT-6B-448px-V1-2。实习生ViT-6B-448px-V1-0。支持动态分辨率,超强 OCR(🔥新)InternVL-聊天-V1-5。InternVL-聊天-V1-2。InternVL-聊天-V1-1。原创 2024-07-23 17:07:34 · 1213 阅读 · 0 评论 -
详解vit_base_patch16_224
ViT-Base模型的核心思想是将输入图像划分为多个小块(patches),并使用Transformer架构来处理这些小块。具体来说,ViT-Base使用16x16像素的patch大小,输入图像的尺寸为224x224像素,这意味着每张图像将被划分为49个patch(22416×22416=14×14=19616224×16224=14×14=196个patch)。ViT-Base(ViT-B/16)通过将图像处理任务转化为序列处理任务。原创 2024-08-20 21:29:51 · 2059 阅读 · 0 评论 -
ViT 原理解析 (Transformers for Image Recognition at Scale)
这里增加了 class token,class token的维度是[1,768],然后将其与第1步得到的tokens进行拼接,即Cat([1, 768], [196, 768]) -> [197, 768]。从公式可以看出,其实一个词语的位置编码是由不同频率的余弦函数函数组成的,从低位到高位,余弦函数对应的频率由 1 降低到了 110000 ,按照论文中的说法,也就是,波长从 2𝜋 增加到了 10000⋅2𝜋。下面来看下ViT是如何做的。等文本数据不同,图像中包含更多的信息,并且是以像素值的形式呈现。原创 2024-08-20 21:11:16 · 1096 阅读 · 0 评论