Qwen2.5 Technical Report 论文进阶学习总结
这里我们接着上一次对 《Qwen2.5 Technical Report》 文章的内容总结,将文章中笔者学习到的论文重要概念,以及单词、短语、用法总结
1 论文重要概念总结
dense model 稠密模型 是指:给定一个输入,如果模型的所有参数都参与了计算,那么这就是稠密模型;
sparse model 是指:给定一个数据,如果模型只有部分参数参与了计算,那么这就是稀疏模型。因此一般的微调模型都是 稀疏模型
downstream tasks:下游任务,是指在主干模型(backbone model)的基础上进行微调的任务; pretext task:前置/代理任务,是指得到主干模型的过程
而上游任务(upstream tasks)就是一种网络框架或网络结构,这种网络是用大量的数据训练出来的模型,我们一般称之为预训练模型(也可称之为模型,预训练模型是一个相对概念,因为上游训练的模型供下游使用,因此对下游来说,上游的模型就是预训练的模型)
structured data 结构化数据 , 结构化数据是具有标准化格式的数据,可供软件和人类高效访问。它通常以表格形式呈现,其中行和列清楚地定义数据属性。由于结构化数据的定量性质,计算机可以有效地处理结构化数据以获得洞见。例如,一个包含名称、地址和电话号码等列的结构化客户数据表,可以提供诸如客户总数和客户数量最多的地区等洞见。相比之下,社交媒体帖子列表等非结构化数据分析起来更具挑战性。
reward model 指令微调后的模型输出可能不符合人类偏好,所以需要利用强化学习优化模型,而奖励模型是强化学习的关键一步
factuality 事实性 ,FactCC和QAGS等方法通过对比原文和摘要信息的一致性来衡量事实性
Faithfulness 忠实性 , 也是大模型幻觉的评估方法
Instruction-Following 模型遵循 , Instruction-Following Eval (IFEVal), 用于评估大型语言模型在遵循指令方面的能力,是一个直接且易于复制的评估基准。有个论文直接是讨论这类评估方法 FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models 这种能力之所以重要,是因为这种能力 能够解决其他未见过的 NLP 任务。
helpfulness 有用性 , 有个论文介绍了好几个用于评估这个属性的方法 HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback
helpfulness 有用性 , 有个论文介绍了好几个用于评估这个属性的方法 HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback
conciseness 准确性
relevance 相关性
Harmlessness 无害性 , 相关论文包括: Constitutional AI: Harmlessness from AI Feedback ; RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
debiasing 去偏方法 相关博客为 https://zhizhou-yu.github.io/2020/11/13/Survey-Of-Bias-and-Debias.html#debiasing-%E6%96%B9%E6%B3%95
back-translation 反向翻译 是一种通用的数据增强算法,能在保留句子语义的情况下生成不同的句子。对于无标签数据使用Back translations方法,对于数据无标签数据x,生成K个增强数据样本。对于Back translations,例如把句子翻译成德语,然后在翻译回来(即标题这里称作反向翻译)。在增强文本生成中,我们采用具有可调温度的随机采样来代替beam search以确保多样性。 这样数据增强用于为无标签数据生成标签。
cross validation 交叉验证
交叉验证(Cross Validation)是常用的模型选择(模型评估)方法。在实际问题中,如果给定的样本数据充足,进行模型选择的方法是随机地将数据集划分成三部分,分别为训练集、验证集、测试集。在训练集上用不同的学习方法训练多个模型,将训练到的多个模型在验证集上验证,选择验证误差最小的模型作为最终的模型,最后用测试集对选出的最终模型进行测试,相应的思路流程图如下所示。而在数据不充足的情况下,为了选择好的模型,我们可以采取交叉验证法。个人认为,交叉验证的一个显著特点是:摒弃了独立验证集,仅将数据划分为训练集和测试集。交叉验证又可细分为:简单交叉验证、折交叉验证、留一交叉验证。
semi-structured data 半结构化数据
-
结构化数据,简单来说就是数据库。也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。结构化数据标记,是一种能让网站以更好的姿态展示在搜索结果当中的方式,搜索引擎都支持标准的结构化数据标记。
-
半结构化数据是一种适于数据库集成的数据模型,也就是说,适于描述包含在两个或多个数据库(这些数据库含有不同模式的相似数据)中的数据。
和普通纯文本相比它具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比更灵活。(最主要的)
它是一种标记服务的基础模型,用于Web上共享信息。
特别的,半结构化数据是“无模式”的。更准确地说,其数据是自描述的。它携带了关于其模式的信息,并且这样的模式可以随时间在单一数据库内任意改变。
这种灵活性可能使查询处理更加困难,但它给用户提供了显著地优势。例如,可以在半结构化模型中维护一个电影数据库,并且能如用户所愿地添加类似“我喜欢看此部电影吗?”这样的新属性。这些属性不需要所有电影都有值,或者甚至不需要多于一个电影有值。同样的,可以添加类似“homage to”这样的联系而不需要改变模式,或者甚至表示不止一对的电影间的联系。
因为我们要了解数据的细节,所以不能将数据简单地组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。
-
非结构化数据:是与结构化数据相对的,不适于由数据库二维表来表现,包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。
-
半结构化模型特征
半结构化数据中结构模式附着相融于数据本身,数据自身就描述了其相应结构模式,具有下述特征:
数据结构自描述性。 结构与数据相交融,在研究和应用中不需要区分“元数据”和“一般数据”(两者合二为一)。
数据结构描述的复杂性。 结构难以纳入现有的各种描述框架,实际应用中不易进行清晰的理解与把握。
数据结构描述的动态性。 数据变化通常会导致结构模式变化,整体上具有动态得结构模式。
常规的数据模型例如E-R模型、关系模型和对象模型恰恰与上述特点相反,因此可以成为结构化数据模型。而相对于结构化数据,半结构化数据的构成更为复杂和不确定,从而也具有更高的灵活性,能够适应更为广泛的应用需求。
参考连接为:https://blog.csdn.net/weixin_43606502/article/details/103412028
encompass 包含 / 包括 , incorporate 与它同义
deductive reasoning 演绎推理
1.演绎推理(Deductive Reasoning): 依据普遍规则推导具体结论(如数学证明)。现有 LLMs 能在特定任务上表现良好,但在长链推理、假设检验等方面仍然薄弱。
2.归纳推理(Inductive Reasoning): 通过具体案例总结一般规律(如科学发现)。研究表明,即使是最先进的 LLM,在归纳任务上也经常出现泛化失败,无法形成稳定的推理模式。
3.溯因推理(Abductive Reasoning): 从已知结果推测最可能的原因(如医学诊断)。当前 LLMs 难以有效处理缺失信息,推测出的结论往往不够严谨。
4.类比推理(Analogical Reasoning): 通过相似性类比来推导新知识(如法律判例)。虽然 LLMs 能在简单的类比推理上接近人类水平,但面对复杂场景时,其表现仍然欠缺稳定性。
归纳(induction):从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规律;
演绎(deduction):从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况.例