大模型
文章平均质量分 88
页页读
这个作者很懒,什么都没留下…
展开
-
(DPO) Bradley-Terry模型概念
在Bradley-Terry模型中,假设有两个对象(例如,运动队A和B)进行比较,模型的目标是估计每个对象的“能力”或“实力”。我们用这些估计值来计算对象A在与对象B的比较中胜出的概率。假设每个对象iii有一个能力值pi0p_i > 0pi0。那么对象iii胜过对象jjjPibeatsjpipipjPibeatsjpipjpi这意味着,两个对象的相对能力值决定了它们的胜出概率。如果pipjp_i > p_jp。原创 2024-08-28 15:46:38 · 1064 阅读 · 0 评论 -
【RLHF】RLHF 中的似然函数是怎样定义的?
在强化学习中的人类反馈(RLHF, Reinforcement Learning with Human Feedback)中,似然函数的定义涉及到如何通过人类反馈来改进和优化策略。RLHF通常结合了强化学习和人类反馈模型来训练智能体。这里主要关注如何将人类反馈纳入到强化学习的框架中。在RLHF中,似然函数的定义和优化涉及到如何通过人类反馈训练奖励模型,从而在强化学习过程中改进智能体的策略。似然函数的核心是通过最大化人类反馈数据下的模型输出概率来优化奖励模型的参数。原创 2024-08-14 14:22:36 · 486 阅读 · 1 评论 -
【大模型量化】AWQ 量化和 INT8 量化的区别是什么?
量化将浮点数(通常为32位浮点数)转换为较低位数(如8位整数),以减少模型的存储空间和计算量。在 INT8 量化中,浮点数被映射到0到255之间的8位整数。原创 2024-08-13 16:44:51 · 1251 阅读 · 0 评论 -
【Paper Reading】6.RLHF-V 提出用RLHF的1.4k的数据微调显著降低MLLM的虚幻问题
论文提出了RLHF-V,一种旨在通过细粒度人类反馈对多模态大型语言模型(MLLMs)行为进行校准的框架,以解决模型产生的幻觉问题,即生成的文本与关联图片不符。通过从细粒度的人类反馈中学习,显著减少基础MLLM的幻觉率,提高了模型的可信度和实用性。RLHF-V提供了一种有效的方法来解决MLLMs中的幻觉问题,通过精细的人类反馈和新颖的优化技术,提高了模型在多模态任务中的可信度和实用性。RLHF-V通过细粒度的人类反馈校准MLLMs的行为,显著提高了模型的可信度,并在开源MLLMs中取得了最先进的性能。原创 2024-03-13 10:40:52 · 1967 阅读 · 1 评论 -
【基础知识】Swin Transformer 中的“滑动窗口”有什么作用?
Swin Transformer 是一种基于 Transformer 架构的,专为视觉任务设计的创新模型。它由微软研究院提出,并迅速成为计算机视觉领域的热门研究方向,特别是在图像分类、目标检测和语义分割等任务上表现出色。Swin Transformer 的核心优势在于其能够有效处理图像中的层次性结构和大尺度变化,同时保持较高的计算效率。:与传统的Transformer模型不同,Swin Transformer 引入了层次化的设计,使其能够更有效地处理不同尺寸的图像。原创 2024-03-12 10:53:08 · 1059 阅读 · 0 评论 -
【基础知识】DPO(Direct Preference Optimization)的原理以及公式是怎样的?
DPO方法的关键在于直接利用人类偏好数据来优化语言模型,从而避免了RLHF流程中奖励模型拟合和RL优化的复杂性和不稳定性。这种方法简化了偏好学习的过程,降低了实现的复杂性,并有可能提高模型根据人类偏好生成输出的效率和准确性。原创 2024-03-11 20:03:35 · 15240 阅读 · 0 评论 -
【DDPM】DDPM中为什么从xt到x_{t-1}还需要加上一个随机变量z?
然而,因为原始的生成过程包含了随机性(通过噪声的增加),所以在恢复过程中也需要引入相应的随机性来模仿这个噪声。这样,我们就能够遍历所有可能的噪声路径来找到对应于我们想要生成的数据的路径。恢复过程(也称为去噪过程)必须尝试估计在每个时间步加入的噪声,这通常是通过神经网络来实现的,网络试图学习从带噪声的数据恢复出去噪声数据的映射。这项是必要的,它保证了生成过程能够探索所有可能的生成路径,从而增强模型生成数据的多样性。这个恢复过程是通过一个受控的方式逐步减少噪声,以便最终能够恢复出准确的原始数据。原创 2024-03-11 16:51:10 · 1188 阅读 · 0 评论 -
【基础知识】为什么在ControlNet中的zero init是有效的,核心原理是什么?
在ControlNet或任何特定的神经网络架构中,使用"zero initialization"(零初始化)或其他特定的初始化方法的有效性取决于多个因素,包括网络的设计、优化目标以及训练数据的性质。虽然在许多情况下,权重的零初始化并不是首选(因为它可能导致对称性破坏问题和梯度消失),在一些特定场景或网络层中,零初始化却可能带来特定的优势。原创 2024-03-11 16:09:14 · 957 阅读 · 0 评论 -
【基础知识】VAE中编码器预测了潜在空间z的分布,引入随机噪声ϵ后,对方差的梯度也引入了随机性,那么它是怎么控制这种随机性来实现确定性训练的呢?
在变分自编码器(VAE)中,重参数化技巧是用来解决随机变量的梯度优化问题的一个关键步骤。具体来说,重参数化允许我们对含有随机变量的模型进行梯度下降优化,而不是直接对随机变量本身进行操作。这是通过将随机性从模型的参数中分离出来实现的,从而使得梯度下降算法可以用于模型的训练。原创 2024-03-07 20:41:21 · 1020 阅读 · 0 评论 -
【基础知识】DDPM中的“Langevin动力学”的概念
这句话描述的是与Langevin动力学相关的一个概念,在这里提到的是使用εθ作为数据密度的学习梯度。总的来说,这句话讲述的是在Langevin动力学的框架下,利用εθ作为一个经过学习的梯度,来模拟或采样数据分布,从而使得生成的样本更接近真实的数据分布。在机器学习和深度学习中,Langevin动力学可以用于训练生成模型,如生成对抗网络(GANs)和变分自编码器(VAEs),通过有效地从复杂的数据分布中采样,以生成新的数据点(如图片、文本等)。),这允许粒子跳出局部最小值,增加探索不同区域的可能性。原创 2024-03-06 14:26:09 · 1992 阅读 · 0 评论 -
【基础知识】DDPM中提到的“Rao-Blackwell定理和闭式解(closed form expressions)”
在这段文本中,作者在描述一种高效的训练方法,该方法涉及到使用随机梯度下降优化损失函数 L 的随机项。进一步的改进来自于通过重写损失函数 L(参见公式(3))来减少方差。特别地,公式(5)使用了KL散度(Kullback-Leibler散度),这是一种度量两个概率分布之间差异的方法。在这里,KL散度用于直接比较在给定x0x_0x0的条件下,时间t−1t-1t−1的真实数据分布pθxt−1∣xtpθxt−1∣xt。原创 2024-03-05 17:36:35 · 1619 阅读 · 0 评论 -
【基础知识】什么是 PPO(Proximal Policy Optimization,近端策略优化)
PPO(Proximal Policy Optimization,近端策略优化)是一种强化学习算法,由John Schulman等人在2017年提出。PPO属于策略梯度方法,这类方法直接对策略(即模型的行为)进行优化,试图找到使得期望回报最大化的策略。PPO旨在改进和简化以前的策略梯度算法,如TRPO(Trust Region Policy Optimization,信任域策略优化),它通过几个关键的技术创新提高了训练的稳定性和效率。原创 2024-03-05 11:39:22 · 5083 阅读 · 0 评论 -
【基础知识】VAE 变分推断公式|变分分布|先验分布|后验分布|KL散度|边缘似然
在VAE的上下文中,先验分布提供了对潜在变量应该如何分布的假设,而后验分布则是给定观测数据后,对潜在变量分布的更新。VAE的训练过程涉及到调整编码器和解码器(Decoder)的参数,以最小化重构误差(使解码器输出尽可能接近输入数据)和正则化项(通常是KL散度,使变分后验接近先验)。通过这种方式,VAE能够学习到能够生成数据的有效的潜在表示。原创 2024-03-05 11:35:12 · 2820 阅读 · 0 评论 -
【扩散模型基础知识】Diffusion Model中的重参数化和VAE中的重参数化的区别
在机器学习中,重参数化(reparameterization)是一种技术,用于改变模型参数的表达方式,以便能够更高效或者更稳定地进行优化。它在不同的模型中有不同的应用和含义。下面我们分别看看在扩散模型(Diffusion Models)和变分自编码器(Variational Autoencoder, VAE)中重参数化的含义及其区别。原创 2024-03-05 11:27:10 · 3536 阅读 · 1 评论 -
【PaperReading】5. Open-Vocabulary SAM
这篇论文主要的亮点是他引入了两个模块:SAM2CLIP 和 CLIP2SAM,实现了CLIP和SAM的对齐,这种融合方法是隐式的,而不是简单的concat或者直接crop出来feature。SAM2CLIP模块的主要功能是将SAM的图像分割能力传递给CLIP,这样CLIP不仅能识别图像中的对象,还能理解这些对象的确切边界。该方法结合了两个模型:分割任何模型(SAM)和CLIP(对比语言图像预训练),创建了开放词汇的SAM。这个模型通过结合SAM的分割能力和CLIP的现实世界识别能力,显著提高了计算效率。原创 2024-01-11 20:56:41 · 1068 阅读 · 0 评论 -
【PaperReading】4. TAP
通过对掩码token上的分割和语义token上的概念预测进行联合优化,模型表现出强大的区域识别和定位能力。另一方面,CLIP通过在网规模的图像-文本对上进行对比学习,训练了一个识别基础模型,展示了在识别任务中强大的零样本能力。与依赖于精心收集或近似的区域-文本数据的先前方法不同,作者的方法使用来自SA-1B的详尽分割数据和CLIP对掩码和语言进行对齐。最后,他们强调,带有视觉提示的TAP模型充当了一个多功能的、位置感知的图像tokenizer,其中token化的区域特征可以直接用于提示因果语言建模。原创 2024-01-11 20:48:38 · 908 阅读 · 0 评论 -
【PaperReading】3. PTP
通过将PTP引入多个先进的VLP框架中,我们观察到在代表性的跨模态学习模型架构和多个基准测试中都取得了显著的改进。例如,PTP在MSCOCO数据集的图像-文本检索任务中,相对于ViLT基线,平均回忆率提高了5.3%,并且在类似的框架和数据量下取得了与ALBEF接近的结果。就是借助于检测模型和现有的caption模型对各个block进行简单的caption并生成这种固定格式的 prompt,帮助模型生成完备准确的描述,这种方法尤其对提高方位相关的描述有用。原创 2024-01-11 20:45:41 · 926 阅读 · 0 评论 -
【PaperReading】2. MM-VID
我们讨论了MM-VID的不同能力,例如基于脚本的问答、多模态推理、长时视频理解、多视频集分析、角色识别、扬声器识别和音频描述生成等。实验结果表明MM-VID在处理挑战性任务方面的有效性,包括理解长达一小时的视频、跨多集的分析、识别角色和发言者以及与视频游戏和图形用户界面的互动。提出了MM-VID,一个综合系统,结合了GPT-4V和专门的视觉、音频和语音工具,以促进高级视频理解。MM-VID从输入的视频文件开始,输出描述视频内容的脚本,使LLM能够实现各种视频理解功能。, 新加坡国立大学Show实验室。原创 2024-01-11 20:38:36 · 796 阅读 · 0 评论 -
【PaperReading- VLM】1. FERRET
论文阅读 of FERRET原创 2024-01-11 20:22:56 · 532 阅读 · 0 评论
分享