论文浅尝
文章平均质量分 87
论文阅读记录
是饿梦啊
喜欢算法,喜欢东野圭吾
展开
-
【论文浅尝】SPARKLE: Enhancing SPARQL Generation withDirect KG Integration in Decoding
此外,我们利用知识库的互联结构在解码头部实体之后的关系,相应地,解码关系之后的尾部实体。例如,如果模型正在为头部实体Michael_Bay生成一个关系,那么它将从候选关系中排除关系write,因为在知识图中没有write与Michael_Bay的关联,如第一个图所示所示。在两种情况下,我们可以利用知识库的结构信息。我们的方法不仅保证了生成的三元模式的语法准确性,而且使它们与底层知识库的语义结构保持一致。在这种表示法中,s用于标记头部实体的第一个令牌的索引,使模型能够在正在生成的查询中准确地识别实体。原创 2024-08-12 11:07:53 · 566 阅读 · 0 评论 -
【论文浅尝】KBLLaMA: A Learn-Then-Reason Model Towards Generalizationin Knowledge Base Question Answering
然后,我们使用经典的K-Means算法来基于它们的嵌入对关系进行聚类,其中聚类的数量被设置为知识库本体中的类的数量。聚类之后,我们从每个聚类中随机选择一个关系子集,创建一个候选关系池。随后,从这个池中,我们对多个关系进行采样,以构建关系的组合。原创 2024-08-09 16:36:29 · 985 阅读 · 0 评论 -
【论文浅尝】Large Language Models for Generative Information Extraction: A Survey
本文对生成式IE的LLM进行了全面的探索。使用两种分类法对现有的代表性方法进行分类:(1)众多IE子任务的分类法,旨在对可以使用llm单独或统一提取的不同类型的信息进行分类;(2)学习范式分类法,对利用llm生成IE的各种新方法进行分类。这种生成式IE调查主要涵盖了和的任务。这三种类型的IE任务以生成方式制定。给定一个输入文本其序列为n个标记X = [,…],],prompt P,目标提取序列Y = [,…原创 2024-05-02 18:35:10 · 1003 阅读 · 0 评论 -
【论文浅尝】MobileLLM: Optimizing Sub-billion Parameter Language Modelsfor On-Device Use Cases
本文旨在解决移动设备上对高效大型语言模型(LLM)日益增长的需求,这种需求是由不断增加的云成本和延迟问题驱动的。我们专注于设计参数少于10亿的高品质LLM,这是移动部署的实用选择。与强调数据和参数数量在决定模型质量中的关键作用的普遍观点相反,我们的研究强调了模型架构对于十亿以下规模LLM的重要性。利用深度和精简架构,加上嵌入式共享和分组查询关注机制,我们建立了一个名为MobileLLM的强大基线网络,与之前的1.25亿/3.5亿最先进模型相比,其准确性提高了2.7%/4.3%。原创 2024-04-28 13:04:07 · 1150 阅读 · 0 评论 -
【论文浅尝】LLM as a System Service on Mobile Devices
由于功能更强大,对用户与设备交互的侵入性更强,LLM渴望在设备上执行以更好地保护用户隐私。在这项工作中,我们提出了一种新的移动AI范式:移动设备上的LLM as a system service(LLM AAS)。与以无状态方式执行的传统DNNs不同,这样的系统服务是有状态的:LLMs执行通常需要跨多个调用维护持久状态(主要是KV cache)。原创 2024-04-28 11:06:06 · 922 阅读 · 0 评论 -
【论文浅尝】Porting Large Language Models to Mobile Devices for Question Answering
移动设备上的大型语言模型(LLM)增强了自然语言处理,并支持更直观的交互。这些模型支持高级虚拟助理、语言翻译、文本摘要或文本中关键术语的提取(命名实体提取)等应用。LLMs的一个重要用例也是问答,它可以为大量的用户查询提供准确的和上下文相关的答案。由于典型智能手机的处理能力有限,当前移动设备上的LLM查询在云中处理,LLM输出被发送回设备。这是ChatGPT应用程序和大多数其他LLM支持的聊天应用程序的标准工作流程。原创 2024-04-27 13:07:35 · 1129 阅读 · 2 评论 -
【论文浅尝】Phi-3-mini:A Highly Capable Language Model Locally on Your Phone
phi-3-mini,一个3.8亿个参数的语言模型,训练了3.3万亿个token,其总体性能,通过学术基准和内部测试进行衡量,可以与Mixtral 8x7B和GPT-3.5等模型相媲美(在MMLU上达到69%,在MT-bench上达到8.38),它是足够小,可以部署在手机上。phi-3-mini模型是一个transformer-decoder架构,默认上下文长度为4K。作者还通过LongRope 引入了一个长上下文版本,它将上下文长度扩展到128K,称为phi-3-mini-128K。原创 2024-04-25 16:47:44 · 1532 阅读 · 0 评论 -
【论文浅尝】Pre-training Small Base LMs with Fewer Tokens
有趣的是,我们还观察到,使用Inheritune导出的这些较小的模型显示出较低的验证损失,而它们的相同大小的对应部件从头开始训练,训练步骤是训练步骤的两倍。(4)如果步骤3中我们的模型的验证损失比步骤2中的参考模型的验证损失更大,我们重新执行步骤3,并且将n的值增加2。本文研究了一种从现有的大型基础语言模型(LM)开始开发小型基础语言模型(LM)的简单方法的有效性:首先从较大的LM继承一些转换块,然后在非常小的原始预训练数据的子集(0.1%)上训练这个较小的模型。原创 2024-04-18 18:10:11 · 860 阅读 · 0 评论 -
【论文浅尝】Pay More Attention to Relation Exploration forKnowledge Base Question Answering
xn},数据集形式化为D = {(Q, A)|(q1, a1), (q2, a2),…知识库形式化为G =〈e, r, e '〉|(e, e ')∈ξ,ξ和R分别表示所有实体和关系的集合,为了将三元组应用于下游任务,实体和关系应该首先嵌入为d维向量:V =〈Ve, Vr, Ve '〉|(Ve, Ve ')∈Vξ, Vr∈Vr}多跳推理往往受到弱监督的阻碍,为了克服这一限制,文中提出了一个多任务方案,通过预测最终答案的关系分布作为额外的指导,使用相同的推理架构和大多数共享参数。其中p(·)为得分函数。原创 2024-04-15 21:25:12 · 390 阅读 · 0 评论 -
【论文浅尝】RoCoIns: Enhancing Robustness of Large Language Modelsthrough Code-Style Instructions
自然语言固有的模糊性会使LLM对指令极其敏感,因为即使对指令进行轻微的修改也会导致性能大幅下降,代码格式的优势在于更具结构性并且不那么模糊。:功能函数可能包括子任务函数,然而子任务函数并不会被定义,仅仅通过其描述性的名称和参数将其功能传达给LLM。1、介绍了RoCoIns,这是一种新的方法,通过利用代码风格的指令来增强LLM抵抗文本对抗性攻击的鲁棒性。:通过为LLM提供一些演示输入输出对,它们可以预测未知输入的标签而无需更新参数。:注释提供任务描述,通常是自然语言指令的改写版本,包含了参数的描述。原创 2024-04-10 21:30:51 · 341 阅读 · 0 评论 -
【论文浅尝】 Can ChatGPT Replace Traditional KBQA Models?
在CoT的引导下,我们发现对于数字答案类型的问题上,效果是显著的,表明在思维链在大语言模型和与数字相关的问题上的重要性。在基于CoT思维链的提示下,大语言模型的性能有了进一步的提升,此外,大语言模型在一些经典数据集上达到的成绩超过当前SOTA模型的性能,说明了大语言模型的推理能力已经超过了传统的深度学习网络模型,由于大语言模型学习的知识并不是实时的,这也印证了之前提到的大语言模型在处理一些随着时间而发生改变的答案的问题时,无法给出答案的情况,并且为未来的研究提供了方向。测试用例的总数约为190000个。原创 2023-12-07 14:53:35 · 1182 阅读 · 0 评论