阿里Qwen团队发布全新的过程奖励模型PRM,并且开源

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain

The Lessons of Developing Process Reward Models in Mathematical Reasoning

【要点】:论文探讨了数学推理过程中大型语言模型的过程奖励模型(PRMs)的开发挑战,并提出了结合蒙特卡洛估计、语言模型评估和人类注释的改进方法。
【方法】:作者通过实验比较了基于蒙特卡洛估计的数据合成方法与语言模型评估和人类注释方法在PRMs中的表现,并引入了共识过滤机制来整合这些方法。
【实验】:研究使用了MC estimation、LLM-as-a-judge和人类注释方法进行数据合成,并在MATH数据集上进行了实验,结果显示了改进的模型性能和数据效率,新提出的PRM性能超越了现有开源替代方案。
【链接】:https://www.aminer.cn/pub/6785d3a0ae8580e7ff519f39

Tensor Product Attention Is All You Need

【要点】:本文提出了一种新型的注意力机制Tensor Product Attention(TPA),通过使用张量分解来紧凑地表示查询、键和值,显著降低推断时的键值缓存大小,同时提高模型质量并解决了现代语言模型的可扩展性挑战。
【方法】:作者通过将查询、键和值进行张量分解,并进行上下文低秩分解(contextual factorization),以及与RoPE的无缝集成,提出了一种新的序列建模架构Tensor ProducT ATTenTion Transformer(T6)。
【实验】:通过在多种语言建模任务上的广泛评估,包括使用标准Transformer基线(如MHA、MQA、GQA和MLA)的对比,证明了T6在困惑度(perplexity)和一系列知名评估基准上的性能均超过这些基线。实验使用了多个公开数据集,具体数据集名称在论文中未明确提及,但结果展示了在固定资源约束下,T6能够处理显著更长的序列。
【链接】:https://www.aminer.cn/pub/6785d385ae8580e7ff51607b

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

【要点】:本文介绍了BIOMEDICA,一个开源框架,用于从PubMed Central Open Access子集中提取、注释并序列化图像-文本对,进而创建了BMCA-CLIP模型,实现了跨生物医学领域的零样本分类和图像-文本检索性能的显著提升。
【方法】:作者使用了一个可扩展的开源框架,自动提取PubMed Central Open Access子集中的图像和文本,并进行专家指导的注释,以构建大规模的图像-文本对数据集。
【实验】:实验中,作者将BIOMEDICA数据集应用于BMCA-CLIP模型的训练,该模型在40项任务中取得了平均领先性能,包括零样本分类和图像-文本检索,使用的计算资源仅为传统方法的十分之一。
【链接】:https://www.aminer.cn/pub/6785d39fae8580e7ff519eb2

VideoAuteur: Towards Long Narrative Video Generation

【要点】:本文提出了一种用于生成高质量长叙事视频的方法,并引入了一个大规模烹饪视频数据集,通过视觉和语义的优化,显著提高了长视频生成的连贯性和质量。
【方法】:研究团队开发了一个长叙事视频导演(Long Narrative Video Director)模型,通过结合视觉嵌入和文本嵌入的微调技术,增强视频生成的视觉和语义连贯性。
【实验】:实验使用了自定义的大规模烹饪视频数据集,并通过对比当前先进的视觉语言模型和视频生成模型验证了数据集的视觉保真度和文本描述准确性。实验结果表明,该方法在生成视觉详细且语义对齐的关键帧方面有显著改进。
【链接】:https://www.aminer.cn/pub/67847ea1ae8580e7ff3dd16e

Transformer^2: Self-adaptive LLMs

【要点】:本文提出了Transformer^2,一种自适应性大型语言模型框架,能够在实时中针对未见任务通过选择性调整权重矩阵的奇异成分进行优化,实现更高效的任务适应性。
【方法】:Transformer^2采用两阶段推理机制,首先通过任务分发系统识别任务属性,然后利用强化学习训练的特定任务“专家”向量动态混合,以适应输入提示的目标行为。
【实验】:通过实验验证了Transformer^2在多种大型语言模型架构和模态中的通用性,包括视觉-语言任务,并使用未明确指出的数据集,结果显示该方法在参数数量更少、效率更高的条件下,性能优于普遍采用的LoRA方法。
【链接】:https://www.aminer.cn/pub/6785d385ae8580e7ff515f62

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值