微调
文章平均质量分 94
啊我有兔子牙
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【202505】Pre-training Large Memory Language Models with Internal and External Knowledge
摘要: 本文提出了一种新型大内存语言模型(LML),将知识存储分为内部参数和外部数据库两部分。通过预训练阶段屏蔽外部检索的事实值,模型学会主动查询而非记忆具体知识。实验表明,382M参数的LML在事实准确性上可媲美7B参数的LLaMA2模型,同时具备知识可编辑、可验证的优势。该方法实现了语言模型知识管理方式的根本转变,小模型通过外部知识库即可获得优异的事实性能,为提升模型可解释性和知识更新效率提供了新思路。原创 2025-07-07 07:42:58 · 746 阅读 · 0 评论 -
DeepSeek-R1系列01——技术报告解读:DeepSeek-R1:通过强化学习激励 LLM 中的推理能力
本文深入解读 DeepSeek - R1 通过强化学习激励大语言模型(LLM)推理能力的技术报告。开篇介绍 DeepSeek - R1 系列在人工智能领域的重要地位,引出对其利用强化学习提升 LLM 推理能力这一核心技术的探讨。详细阐述强化学习在该模型中的应用机制,包括如何设计奖励函数来引导模型在复杂推理任务中找到更优解,以及如何通过与环境交互不断优化推理策略 。分析这一技术相较于传统提升 LLM 推理能力方法的优势,如在面对复杂逻辑问题时能更高效地给出准确答案,大幅提升模型的实用性和智能水平。同时,结合具原创 2025-02-09 21:41:57 · 3090 阅读 · 0 评论 -
微调系列01-一文吃透!大模型里的微调技术到底是什么?
在深度学习和机器学习领域,“微调” 是一个频繁出现却又让不少人一知半解的概念。本文将深入浅出地为你剖析什么是微调。首先,介绍微调的基本定义,它是在预训练模型基础上进行的进一步训练,利用少量特定任务数据对模型参数进行针对性调整 。接着,详细阐述微调的流程,从选择合适的预训练模型,到准备适配的数据集,再到确定微调的超参数,每个步骤都关乎微调的效果。然后,探索展示微调如何让模型在特定任务中表现大幅提升。原创 2025-02-09 15:26:53 · 871 阅读 · 0 评论 -
AutoDL微调打怪升级
回到lamafactory的界面,,方法同上述部署模型方法一致,把加载模型路径改为微调模型的输出路径就行了(就是上图的路径)/root/autodl-tmp/myModel,模型名字没变,因为它就是Qwen-7B-Chat的升级版,底层架构啥的都一样。选择模型名称Qwen-7B-Chat,输入地址(之前下载的地方)/root/autodl-tmp/qwen/Qwen-7B-Chat,地址从MobaXterm复制,复制了记得删最后的/gpu是负责运算的,显存是你计算的内存大小,都还够着呢,别担心。原创 2025-02-09 12:17:33 · 1196 阅读 · 0 评论 -
2023.6UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for Biomedical
在生成训练序列时,以 CUIs 为基础来组织数据,使得模型能够在更抽象的层面上理解概念之间的关系,而不受具体术语表述差异的影响。例如,模型可以通过语义组信息了解到疾病概念与解剖结构概念在医学文本中的不同作用和关系模式,从而更好地把握医学知识的结构和逻辑,提高对生物医学文本的理解能力,尤其是在涉及多个不同类型概念相互关联的复杂语境中。这意味着模型在训练过程中,直接接触到的是具体的医学术语,这些术语是医学知识在文本层面的最直接体现,帮助模型学习医学术语的语义和用法,以及它们在不同语境中的含义。原创 2024-11-17 23:48:14 · 962 阅读 · 0 评论 -
2024.5 AAAiGLaM:通过邻域分区和生成子图编码对领域知识图谱对齐的大型语言模型进行微调
将大型语言模型与从特定领域数据中得出的知识图谱相结合,代表着朝着更强大、更符合事实的推理迈出了重要的一步。随着这些模型的功能越来越强大,让它们能够在现实世界的知识图谱上执行多步推理,同时尽量减少幻觉至关重要。虽然大型语言模型在对话和文本生成方面表现出色,但它们对互连实体的领域专用图谱进行推理的能力仍然有限。例如,我们能否根据私有数据库中的关系和属性查询模型,以确定专业网络中针对特定目标的最佳联系人?答案是否定的——这种能力超出了当前方法的范围。然而,这个问题凸显了一个必须解决的关键技术差距。科学、安全和电子原创 2024-11-17 21:37:16 · 1465 阅读 · 0 评论 -
2023.9Graph-Enriched Biomedical Entity Representation Transformerr图形丰富的生物医学实体表示转换器
将有关各种生物医学概念和关系的外部领域特定知识注入语言模型 (LM) 可提高其处理医学概念规范化 (MCN) 等专门领域内任务的能力。然而,现有的生物医学 LM 主要使用来自术语 (例如 UMLS) 的同义概念名称作为正锚点进行对比学习训练,而准确聚合图节点和邻居的特征仍然是一个挑战。在本文中,我们提出了图形丰富的生物医学实体表示转换器 (GEBERT),它通过图神经网络和对比学习从 UMLS 捕获图结构数据。在 GEBERT 中,我们通过引入额外的基于图的节点级对比目标来丰富实体表示。为了实现文本和结构模原创 2024-11-17 20:38:31 · 873 阅读 · 0 评论 -
2023 MMUGL-基于 UMLS 知识图谱的多模态图学习Multi-modal Graph Learning over UMLS Knowledge Graphs
临床医生越来越希望通过机器学习来了解患者的进展情况。我们提出了一种名为多模态 UMLS 图学习 (MMUGL) 的新方法,用于在基于统一医学语言系统的知识图谱上使用图神经网络学习医学概念的有意义表示。这些概念表示被聚合以表示患者就诊,然后输入到序列模型中,以患者多次医院就诊的粒度执行预测。我们通过结合先前的医学知识和考虑多种模式来提高绩效。我们将我们的方法与在 MIMIC-III 数据集上为学习不同粒度的表示而提出的现有架构进行了比较,并表明我们的方法优于这些方法。结果证明了基于先前医学知识的多模态医学概念原创 2024-11-16 14:48:45 · 1706 阅读 · 0 评论 -
2021 EMNLP Mixture-of-Partitions: Infusing Large Biomedical Knowledge Graphs into BERT
我们实验了三个生物医学预训练模型,即 BioBERT(Lee et al.,2020)、SciBERT(Beltagy et al.,2019)和 PubMedBERT(Guu et al.,2020),作为我们的基本模型,它们在生物医学文本挖掘任务中显示出强劲的进展。在本文中,我们重点介绍了实体预测,这是使用最广泛的目标之一,并将其他目标的探索留给未来的工作。具体来说,我们的 MoP 首先将一个大的 KG 划分为更小的子图(即 , §2.1),并分别学习每个子图上的子图特定参数(即 , §2.2)。原创 2024-11-14 22:41:35 · 995 阅读 · 0 评论
分享