Qwen2.5 Technical Report 论文进阶学习总结

空白II

于 2025-04-09 06:00:00 发布

阅读量1.5k

点赞数 49

分类专栏：英语学习人工智能大语言模型文章标签：人工智能论文阅读英语学习

本文链接：https://blog.csdn.net/qq_48717745/article/details/147016693

版权

Qwen2.5 Technical Report 论文进阶学习总结

这里我们接着上一次对《Qwen2.5 Technical Report》文章的内容总结，将文章中笔者学习到的论文重要概念，以及单词、短语、用法总结

1 论文重要概念总结

dense model 稠密模型是指：给定一个输入，如果模型的所有参数都参与了计算，那么这就是稠密模型；

sparse model 是指：给定一个数据，如果模型只有部分参数参与了计算，那么这就是稀疏模型。因此一般的微调模型都是稀疏模型

downstream tasks：下游任务，是指在主干模型（backbone model）的基础上进行微调的任务； pretext task：前置/代理任务，是指得到主干模型的过程

而上游任务（upstream tasks）就是一种网络框架或网络结构，这种网络是用大量的数据训练出来的模型，我们一般称之为预训练模型(也可称之为模型，预训练模型是一个相对概念，因为上游训练的模型供下游使用，因此对下游来说，上游的模型就是预训练的模型)

structured data 结构化数据，结构化数据是具有标准化格式的数据，可供软件和人类高效访问。它通常以表格形式呈现，其中行和列清楚地定义数据属性。由于结构化数据的定量性质，计算机可以有效地处理结构化数据以获得洞见。例如，一个包含名称、地址和电话号码等列的结构化客户数据表，可以提供诸如客户总数和客户数量最多的地区等洞见。相比之下，社交媒体帖子列表等非结构化数据分析起来更具挑战性。

reward model 指令微调后的模型输出可能不符合人类偏好，所以需要利用强化学习优化模型，而奖励模型是强化学习的关键一步

factuality 事实性，FactCC和QAGS等方法通过对比原文和摘要信息的一致性来衡量事实性

Faithfulness 忠实性，也是大模型幻觉的评估方法

Instruction-Following 模型遵循， Instruction-Following Eval (IFEVal)，用于评估大型语言模型在遵循指令方面的能力，是一个直接且易于复制的评估基准。有个论文直接是讨论这类评估方法 FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models 这种能力之所以重要，是因为这种能力能够解决其他未见过的 NLP 任务。

helpfulness 有用性，有个论文介绍了好几个用于评估这个属性的方法 HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback

conciseness 准确性

relevance 相关性

Harmlessness 无害性，相关论文包括： Constitutional AI: Harmlessness from AI Feedback ； RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

debiasing 去偏方法相关博客为 https://zhizhou-yu.github.io/2020/11/13/Survey-Of-Bias-and-Debias.html#debiasing-%E6%96%B9%E6%B3%95

back-translation 反向翻译是一种通用的数据增强算法，能在保留句子语义的情况下生成不同的句子。对于无标签数据使用Back translations方法，对于数据无标签数据x，生成K个增强数据样本。对于Back translations，例如把句子翻译成德语，然后在翻译回来（即标题这里称作反向翻译）。在增强文本生成中，我们采用具有可调温度的随机采样来代替beam search以确保多样性。这样数据增强用于为无标签数据生成标签。

cross validation 交叉验证

交叉验证（Cross Validation）是常用的模型选择（模型评估）方法。在实际问题中，如果给定的样本数据充足，进行模型选择的方法是随机地将数据集划分成三部分，分别为训练集、验证集、测试集。在训练集上用不同的学习方法训练多个模型，将训练到的多个模型在验证集上验证，选择验证误差最小的模型作为最终的模型，最后用测试集对选出的最终模型进行测试，相应的思路流程图如下所示。而在数据不充足的情况下，为了选择好的模型，我们可以采取交叉验证法。个人认为，交叉验证的一个显著特点是：摒弃了独立验证集，仅将数据划分为训练集和测试集。交叉验证又可细分为：简单交叉验证、折交叉验证、留一交叉验证。

semi-structured data 半结构化数据

结构化数据，简单来说就是数据库。也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。结构化数据标记，是一种能让网站以更好的姿态展示在搜索结果当中的方式，搜索引擎都支持标准的结构化数据标记。
半结构化数据是一种适于数据库集成的数据模型，也就是说，适于描述包含在两个或多个数据库（这些数据库含有不同模式的相似数据）中的数据。

和普通纯文本相比它具有一定的结构性，但和具有严格理论模型的关系数据库的数据相比更灵活。（最主要的）
它是一种标记服务的基础模型，用于Web上共享信息。
特别的，半结构化数据是“无模式”的。更准确地说，其数据是自描述的。它携带了关于其模式的信息，并且这样的模式可以随时间在单一数据库内任意改变。
这种灵活性可能使查询处理更加困难，但它给用户提供了显著地优势。例如，可以在半结构化模型中维护一个电影数据库，并且能如用户所愿地添加类似“我喜欢看此部电影吗？”这样的新属性。这些属性不需要所有电影都有值，或者甚至不需要多于一个电影有值。同样的，可以添加类似“homage to”这样的联系而不需要改变模式，或者甚至表示不止一对的电影间的联系。

因为我们要了解数据的细节，所以不能将数据简单地组织成一个文件按照非结构化数据处理，由于结构变化很大也不能够简单的建立一个表和他对应。

非结构化数据：是与结构化数据相对的，不适于由数据库二维表来表现，包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理，广泛应用于全文检索和各种多媒体信息处理领域。
半结构化模型特征
半结构化数据中结构模式附着相融于数据本身，数据自身就描述了其相应结构模式，具有下述特征：

数据结构自描述性。结构与数据相交融，在研究和应用中不需要区分“元数据”和“一般数据”（两者合二为一）。

数据结构描述的复杂性。结构难以纳入现有的各种描述框架，实际应用中不易进行清晰的理解与把握。

数据结构描述的动态性。数据变化通常会导致结构模式变化，整体上具有动态得结构模式。

常规的数据模型例如E-R模型、关系模型和对象模型恰恰与上述特点相反，因此可以成为结构化数据模型。而相对于结构化数据，半结构化数据的构成更为复杂和不确定，从而也具有更高的灵活性，能够适应更为广泛的应用需求。

参考连接为：https://blog.csdn.net/weixin_43606502/article/details/103412028

encompass 包含 / 包括， incorporate 与它同义

deductive reasoning 演绎推理

1.演绎推理（Deductive Reasoning）：依据普遍规则推导具体结论（如数学证明）。现有 LLMs 能在特定任务上表现良好，但在长链推理、假设检验等方面仍然薄弱。

2.归纳推理（Inductive Reasoning）：通过具体案例总结一般规律（如科学发现）。研究表明，即使是最先进的 LLM，在归纳任务上也经常出现泛化失败，无法形成稳定的推理模式。

3.溯因推理（Abductive Reasoning）：从已知结果推测最可能的原因（如医学诊断）。当前 LLMs 难以有效处理缺失信息，推测出的结论往往不够严谨。

4.类比推理（Analogical Reasoning）：通过相似性类比来推导新知识（如法律判例）。虽然 LLMs 能在简单的类比推理上接近人类水平，但面对复杂场景时，其表现仍然欠缺稳定性。

归纳(induction)：从特殊到一般的“泛化”(generalization)过程，即从具体的事实归结出一般性规律；