DeepSeek梁文锋挂名,公开新注意力架构NSA

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

【要点】:本文提出了一种名为NSA的硬件对齐且原生可训练的稀疏注意力机制,通过算法创新与硬件优化相结合,实现高效的长上下文建模。
【方法】:NSA采用动态层次化稀疏策略,结合粗粒度标记压缩与细粒度标记选择,以保持全局上下文意识和局部精确度。
【实验】:实验表明,使用NSA预训练的模型在通用基准测试、长上下文任务和基于指令的推理中维持或超过全注意力模型的性能,并在64k长度序列的解码、前向传播和反向传播中实现了显著的速度提升。实验使用的数据集未明确提及。
【链接】:https://www.aminer.cn/pub/67b3fbf2ae8580e7ff49bfcc

Are Your LLMs Capable of Stable Reasoning?

【要点】:论文提出了一种新的评估指标G-Pass@k,用以连续评估大型语言模型在多次采样尝试中的性能,同时引入了LiveMathBench动态基准,揭示了LLMs在“现实”推理能力上的提升空间。
【方法】:通过引入G-Pass@k指标,该指标可以同时量化模型的最高性能潜力和稳定性。
【实验】:使用G-Pass@k对最先进的LLMs进行实验,使用的数据集为LiveMathBench,结果已在https://github.com/open-compass/GPassK公开。
【链接】:https://www.aminer.cn/pub/676382b7ae8580e7ff1efb2d

OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain

【要点】:本文提出了一个面向金融领域的全方位自动RAG评估基准OmniEval,具备多维度的评估框架,旨在全面评估RAG系统在多样化查询场景下的性能。
【方法】:通过构建基于矩阵的RAG场景评估系统,结合GPT-4自动生成和人工标注的多维度评估数据生成方法,以及多阶段评估系统,OmniEval能够对RAG系统的检索和生成性能进行综合评价。
【实验】:实验使用了广泛的测试数据集,验证了OmniEval的全面性,并开源了代码,实验结果显示RAG系统在不同主题和任务上的性能差异,指出了RAG模型在垂直领域改进能力的显著机会。数据集名称未在摘要中明确提及。
【链接】:https://www.aminer.cn/pub/676382b7ae8580e7ff1efa9e

Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models

【要点】:本文提出了MDI基准,用于全面、客观、准确地评估大型多模态模型在现实世界场景中对人类多样化需求的支持情况,并考虑了不同年龄段人群的需求差异。
【方法】:MDI基准包含超过500张图片,涵盖六个常见的生活场景,并为每张图片配备简单和复杂两种类型的问题,同时将问题按年龄段分为青年、中年和老年三类。
【实验】:研究使用了MDI-Benchmark数据集,通过评估模型在不同年龄段问题上的表现,发现即使是强大如GPT-4o的模型在应对现实世界应用时仍有改进空间,相关数据和评估代码已公开。
【链接】:https://www.aminer.cn/pub/676382b7ae8580e7ff1ef8d5

AgentSociety: Large-Scale Simulation ofLLM-Driven Generative Agents AdvancesUnderstanding of Human Behaviors and Society

【要点】:本文提出了AgentSociety,一个整合了大型语言模型驱动的代理的大型社会模拟器,用以模拟人类行为和社会动态,并探讨了其在计算社会科学实验中的应用潜力。
【方法】:通过将LLM驱动的代理与真实社会环境和大规模模拟引擎相结合,构建了一个可以进行复杂社会动态研究的模拟器。
【实验】:研究者在AgentSociety中模拟了超过10,000个代理的社会生活,记录了它们之间的500万次互动,并使用该模拟器针对四项关键社会问题进行了计算社会科学实验,使用的数据集为模拟生成的代理互动数据,结果显示AgentSociety能够捕捉到与真实世界实验相符的人类行为和底层机制。
【链接】:https://www.aminer.cn/pub/67aeb0fbae8580e7ff3cd6bf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值