点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
1. AtP*: An efficient and scalable method for localizing LLM behaviour to components
Activation Patching是一种直接计算行为因果归因于模型组件的方法。然而,要彻底应用它,需要进行一次扫描,其成本与模型组件数量成线性关系,这对于先进的大型语言模型(LLMs)来说可能成本过高。本文调查了称为Attribution Patching(AtP)的快速基于梯度的Activation Patching的近似方法,并发现了两类导致AtP显著假阴性的失效模式。作者提出了AtP的变体AtP*,对其进行了两处修改以解决这些失效模式,同时保持了可伸缩性。本文首次系统研究了AtP及其用于更快的激活修补的替代方法,并展示了AtP明显优于所有其他调查方法,而AtP提供了进一步显著改进。最后,文中提供了一种方法来界定AtP估计的剩余假阴性的概率。
文章链接:
https://arxiv.org/pdf/2403.00745.pdf
2. TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision
分层文本分类旨在将每个文档分类到标签分类树中的一组类别中。大多数早期工作都集中在需要大量人工标注数据的全面或半监督方法上,这是昂贵且耗时的。为了减轻人力工作,本文研究了具有最少监督的分层文本分类:仅使用每个节点的唯一类名作为唯一的监督。最近,大型语言模型(LLM)通过零-shot提示在各种任务上展现出竞争性能,但是在分层设置中,这种方法表现不佳,因为在提示中包含大而结构化的标签空间是无效的。另一方面,先前的弱监督分层文本分类方法仅利用原始的标签分类骨架,忽略了隐藏在文本语料库中的丰富信息,这些信息可以作为额外的类别指示特征。为了解决上述挑战,作者提出了TELEClass,Taxonomy Enrichment and LLM-Enhanced weakly-supervised hierarchical text Classification,该方法(1)自动从语料库中挖掘出类别指示的主题术语,以便于分类器训练,并(2)利用LLM进行数据注释和定制用于分层标签空间的创建。实验证明,TELEClass在两个公共数据集上都可以优于先前的弱监督分层文本分类方法和基于LLM的零-shot提示方法。
文章链接:
https://arxiv.org/pdf/2403.00165.pdf
3. BasedAI: A decentralized P2P network for Zero Knowledge Large Language Models (ZK-LLMs)
BasedAI是一个分布式机器网络,引入了分散式基础设施,能够将全同态加密(FHE)与连接到其网络的任何大型语言模型(LLM)集成起来。本文所提出的框架将一个名为“Cerberus Squeezing”的默认机制嵌入到挖矿过程中,该机制能够将标准LLM转换为加密的零知识LLM,或称为“ZK-LLM”,利用生成对抗网络对数据隐私进行洞察。这种新颖的量化机制使BasedAI矿工能够处理并响应来自用户与LLM的交互所衍生的提示,而无需解密查询或其相应的响应。本文引入Cerberus Squeezing通过积极优化用户、矿工和验证者之间的通话,显著改善了当前FHE兼容计算环境中由量化函数引起的性能退化。尽管本文主要探讨了BasedAI在LLM领域的应用,但值得注意的是,BasedAI的基础架构本质上是多才多艺的,有潜力扩展到其他领域。本工作的核心贡献在于解决在BasedAI的点对点网络结构下,同时保持隐私并高效执行复杂计算的挑战。
文章链接:
https://arxiv.org/pdf/2403.01008.pdf
4. Large language models surpass human experts in predicting neuroscience results
科学发现往往取决于综合数十年的研究成果,这一任务有可能超出人类信息处理能力。大型语言模型(LLMs)提供了一种解决方案。在广泛的科学文献上训练的LLMs可能会整合嘈杂但相关的发现,从而比人类专家更好地预测新颖结果。为了评估这种可能性,我们创建了BrainBench,这是一个用于预测神经科学结果的前瞻性基准。本文发现,LLMs在预测实验结果方面超过了专家。作者在神经科学文献上调优的LLM,即BrainGPT,表现得更好。与人类专家一样,当LLMs对其预测有信心时,它们更有可能是正确的,这预示着未来人类和LLMs将合作进行发现。该方法不局限于神经科学,可以应用于其他知识密集型的工作。
文章链接:
https://arxiv.org/pdf/2403.03230.pdf
5. Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding
本文旨在克服大型语言模型(LLMs)的“中间丢失”挑战。尽管最近的进展成功地使LLMs能够稳定地进行语言建模,最多可处理400万个标记,但大多数LLMs在识别位于上下文中间的相关信息方面仍然面临着持续困难。为了解决这个问题,本文介绍了多尺度位置编码(Ms-PoE),这是一种简单而有效的即插即用方法,可以增强LLMs处理位于上下文中间的相关信息的能力,而无需微调或引入任何额外开销。Ms-PoE利用位置索引重新缩放来缓解RoPE引入的长期衰减效应,同时精心为不同的注意力头分配不同的缩放比例,以保留在预训练阶段学到的重要知识,形成从短距离到长距离的多尺度上下文融合。对一系列LLMs进行的大量实验证明了所提方法的有效性。值得注意的是,Ms-PoE在Zero-SCROLLS基准测试中平均准确率提高了高达3.8。
文章链接:
https://arxiv.org/pdf/2403.04797.pdf
6. ConstitutionalExperts: Training a Mixture of Principle-based Prompts
大型语言模型(LLMs)在各种任务上具有很高的能力,只要给定正确的提示,但编写一个仍然是一个困难且繁琐的过程。这项工作介绍了ConstitutionalExperts,这是一种学习由宪法原则(即规则)组成的提示的方法,给定一个训练数据集。与之前优化提示作为单一实体的方法不同,该方法通过逐步编辑单个原则来逐渐改进提示。文中还展示了通过为训练数据的不同语义区域学习独特的提示,并在推理时使用混合专家(MoE)架构来路由输入,可以提高整体性能。本文方法与其他六个基准数据集上的最先进的提示优化技术进行了比较。还调查了MoE是否改进了这些其他技术。结果表明,ConstitutionalExperts在F1上优于其他提示优化技术10.9%,并且混合专家改进了所有技术,表明其广泛适用性。
文章链接:
https://arxiv.org/pdf/2403.04894.pdf
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。
我知道你
在看
哦
~
点击 阅读原文 观看更多!