大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain
Phi-4 Technical Report
【要点】:本文介绍了phi-4,一种拥有140亿参数的语言模型,通过注重数据质量训练配方开发而成,创新性地在训练过程中融合了合成数据,并在STEM领域的问题回答能力上显著超过了其教师模型GPT-4。
【方法】:phi-4采用了一种以数据质量为核心训练方法,并结合了合成数据的使用,以及独特的后训练技术,这些方法使其在STEM相关任务上表现出色。
【实验】:phi-4在多个推理聚焦的基准测试中展现了强劲性能,实验使用了专门生成的合成数据集,结果证明了phi-4在STEM-focused QA上的优越性。
【链接】:https://www.aminer.cn/pub/675ba34bae8580e7ff21dd47
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
【要点】:本文提出了一种名为InternLM-XComposer2.5-OmniLive的综合多模态系统,通过解耦的流感知、推理和记忆机制,实现了对长期流视频和音频交互的实时处理。
【方法】:研究采用了Specialized Generalist AI的理念,将流感知、多模态长记忆和推理功能分别集成到三个模块中,以模拟人类认知方式。
【实验】:实验中,InternLM-XComposer2.5-OmniLive系统在处理实时视频和音频输入时展现了连续和自适应的服务能力,但具体数据集名称未提及。
【链接】:https://www.aminer.cn/pub/675ba353ae8580e7ff221622
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions
【要点】:本文提出了一种名为Euclid的新型多模态大语言模型,通过合成高质量视觉描述增强模型对低级视觉感知的能力,并在几何感知任务上取得显著性能提升。
【方法】:作者通过设计Geoperception基准来评估多模态大语言模型对图像中2D几何信息的转录能力,并探索了提高模型几何任务性能的模型架构、训练技术和数据策略。
【实验】:使用Geoperception基准,作者对Euclid模型进行了测试,并与现有领先模型进行了对比。实验使用合成多模态数据,并采用多阶段训练与数据课程策略,结果显示Euclid在新型几何形状上展现出强大的泛化能力,比最佳闭源模型Gemini-1.5-Pro高出。
【链接】:https://www.aminer.cn/pub/675ba34bae8580e7ff21dc63
Light-A-Video: Training-free Video Relighting via Progressive Light Fusion
【要点】:论文提出了一种无需训练的Light-A-Video方法,通过渐进式光线融合实现视频重光照的时序平滑性,解决了传统视频重光照中存在的光源不一致性和重光照外观不一致性问题。
【方法】:该方法采用Consistent Light Attention(CLA)模块增强帧间交互,并利用Progressive Light Fusion(PLF)策略实现光源的线性混合,确保了光照过渡的时序一致性。
【实验】:实验验证了Light-A-Video在多个数据集上的效果,结果表明该方法提高了重光照视频的时序一致性,同时保持了图像质量。具体数据集名称未在摘要中提及。
【链接】:https://www.aminer.cn/pub/67ad582fae8580e7ff11960a
On the Emergence of Thinking in LLMs I: Searching for the Right Intuition
【要点】:本文提出了一种名为Reinforcement Learning via Self-Play (RLSP)的框架,通过解耦探索和正确性信号,有效提升大型语言模型(LLM)的推理能力,并展示了模型在推理过程中涌现的复杂行为。
【方法】:采用监督微调、探索奖励信号和基于结果的强化学习训练,以促进模型在推理过程中的多样性和效率。
【实验】:在数学领域进行的实证研究表明,RLSP能够提高Llama-3.1-8B-Instruct模型在测试集上的性能提升23%,Qwen2.5-32B-Instruct在AIME 2024数学问题上的表现提升了10%。实验使用的数据集包括Llama-3.1-8B-Instruct和Qwen2.5-32B-Instruct模型,并观察了模型涌现的复杂推理行为。
【链接】:https://www.aminer.cn/pub/67aac60bae8580e7ff373834