Suga..r-CSDN博客

原创技术学习笔记-构建agent

工作流：大模型和工作流的行为被编排好的代码所定义智能体：可以动态指导自己的流程和工具使用，保持对完成任务方式对控制的系统。

2025-04-07 17:29:03 713

有监督微调又被称为序列级知识蒸馏，常被用于提取强大黑盒LLMs的知识。SFT通过最大化学生模型对教师LLMs生成序列的似然概率来微调学生模型，使学生的预测与教师的预测保持一致。公式是一个交叉熵损失函数。其中，y∼p_T(y∣x)：输出 y 是根据教师模型的条件概率分布 p_T(y∣x) 生成的，p_S(y|x)是学生模型给定输入 x 生成输出 y 的条件概率。通过最小化这个损失函数，学生模型逐渐学会模仿教师模型的行为，从而将教师的知识"蒸馏"到学生模型中。

2025-03-12 11:23:09 932

原创大模型学习笔记-大模型蒸馏-知识提取方法

这种范式转变主要归因于LLMs如 GPT-4 和 Gemini 所拥有的广泛和根深蒂固的知识。而LLMs的不可访问参数使得使用剪枝或量化技术进行压缩变得困难。与早期时代的目标是复制教师模型的输出行为或减少模型大小不同，基于LLM的知识蒸馏的当前重点是提取这些模型所具有的特定知识，以及推理思维，偏好对齐和价值对齐。大模型蒸馏传统知识蒸馏算法相比，数据增强已成为实现LLMs知识蒸馏的流行范式，其中使用一小部分知识种子来提示LLM生成更多与特定技能或领域相关的数据。

2025-03-03 14:37:54 1872

原创技术学习笔记-知识蒸馏

温度参数是用来控制学生模型对负标签关注程度（对“思考过程”关注程度）的参数。温度较高时，概率分布（软标签）会比原始分布更加平缓，也就是说学生模型会更加关注负标签；温度较低时，学生模型对负标签的关注则较小。实际上，负标签中包含一定的信息，尤其是那些值显著高于平均值的负标签。但由于Net-T的训练过程决定了负标签部分有较多噪声，并且负标签的值越低，其信息就越不可靠。从有部分信息量的负标签中学习 --> 温度要高一些防止受负标签中噪声的影响 -->温度要低一些。

2025-02-20 11:38:15 1821

原创技术学习笔记-需求优先级的确认方法

在需求收集的过程中，产品经理需要甄别出这个需求对产品最终成功指标的影响度。对于大客户项目，让大客户满意的是最关键的点。当我们分析需求优先级的时候，可以根据权力/收益矩阵来确认优先级。通常我们会重点关注A、B区域的利益相关者，他们通常是购买方的采购负责人和公司老板。对于C、D我们不需要投入过多关注，但是也不能疏忽，他们可能对这个项目购买存在间接影响力。案例：培训企业购买师资机构的在线企业培训系统。

2025-02-16 15:37:07 1445