多模态大模型

文章介绍了GPT-4模型在多模态输入和输出上的应用,强调了模型的涌现能力和泛化性能。通过预训练和人类反馈强化学习,GPT-4展现出强大的多模态思维链。文章还提及了近端策略优化(PPO)算法在优化模型训练中的作用,特别是其在限制策略更新幅度和提高数据效率方面的优势。
摘要由CSDN通过智能技术生成

多模态指的是融合文本、图像、视频或者音频等多模态作为输入或输出。

GPT-4:Generative Pre-trained Transformer 4:该模型可对图文多模态输入生成应答文字,以及对视觉元素的分类、分析和隐含语义提取,并表现出优秀的应答能力。

核心技术:

1.理论基础

  • 多模态涌现能力:大型语言模型LLM中,涌现能力是指模型具有从原始训练数据中自动学习并发现新的、更高层次的特征和模式的能力。多模态大语言模型可以实现更好的常识推理能力。
  • 缩放定律(参数增加后精度损失连续减少):在语言模型发展的早期,通过在更多数据上训练更大的模型,可以获得近似连续的精确度提升。到了2015年左右,随着深度学习技术的发展和语料库的增大,模型达到一定的临界规模后,模型开始表现出一些开发者最开始未能预测的、更复杂的能力和特性,这些能力和特性被认为是涌现能力的体现。

涌现能力是基于深度学习模型的分层结构和权重学习机制实现的。当大语言模型被训练时,通过学习大量的多模态训练数据,并且根据数据中的统计规律和模式自适应的调整其内部参数和结构,从而表现出一些新的能力和特性。涌现能力是大语言模型的重要特性,也是大模型各种能力的理论基础。涌现能力的另一个重要表现是模型的泛化能力。

2.核心优势——多模态思维链

模型训练出来的思维链。思维链形成机制可以解释为模型通过学习大量的语言数据来构造一个关于语言结构和意义的内在表示,通过一系列中间自然语言推理步骤来完成最终输出。思维链是让大众感觉语言模型“像人”的关键特性。

语言模型的研究范式

在2017-2019年间,语言模型的研究重心逐渐转移到预训练模型上。模式为“预训练+精调”。

GPT-4/GPT-3模型中提示的新范式可归纳为“预训练+提示+预测”。

3.关键技术

人类反馈强化学习(Reinforcement Learning from human Feedback,人类反馈强化学习)。

如何加快训练效率,是如今强化学习任务待解决的重要问题之一。

TAMER架构在强化学习中的应用

TAMER(Training an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理)框架。该框架将人类标记员引入到模型代理的学习循环中,可以通过人类向代理提供奖励反馈(即知道Agents进行训练),从而快速达到训练任务目标。

GPT-4的多模态奖励模型(RM)是小号的有监督精调模型(SFT),但是在顶部添加了一个新的线性层来预测奖励。

奖励模型的过拟合导致模型性能下降

GPT-4中奖励模型只是人类偏好的部分表征,过度的训练反而可能导致奖励模型过拟合(以偏见代替整体)。

优化技术

近端策略优化算法(PPO,Proximal Policy Optimization)是一种高效的强化学习优化策略算法,由OPENAI的John Schulman等人在2017年提出。PPO算法试图解决的是参数共享架构不兼容、计算复杂性和难以调整的超参数等问题。通过简化优化问题,并限制策略更新的幅度,实现了更高效、更稳定的学习过程,具有实现简单、能同时处理离散/连续动作空间问题、可大规模训练等优势。

PPO的核心思想是在每次迭代中,通过一种称为近端策略优化的方法来更新策略参数,以最大化预期收益。它采用两个神经网络来表示模型的策略,一个是执行行动(Actor),另一个是处理奖励(Critic)。每次迭代中,PPO算法都会从环境中采样一批经验数据,并使用这些数据来更新策略参数和价值参数。

该算法的主要特点:1)裁剪的目标函数:PPO通过裁剪策略比例来限制更新幅度;2)重要度采样:利用重要度采样来估计策略梯度,从而可以重复使用之前的经验来更新策略。这使得PPO在数据效率上更具优势。3)多次更新:PPO算法在每次收集一批数据后,对策略进行多次更新。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值