- 博客(8)
- 收藏
- 关注
原创 技术学习笔记-构建agent
工作流:大模型和工作流的行为被编排好的代码所定义智能体:可以动态指导自己的流程和工具使用,保持对完成任务方式对控制的系统。
2025-04-07 17:29:03
713
原创 技术学习笔记-大模型蒸馏(二)
有监督微调又被称为序列级知识蒸馏,常被用于提取强大黑盒LLMs的知识。SFT通过最大化学生模型对教师LLMs生成序列的似然概率来微调学生模型,使学生的预测与教师的预测保持一致。公式是一个交叉熵损失函数。其中,y∼p_T(y∣x):输出 y 是根据教师模型的条件概率分布 p_T(y∣x) 生成的,p_S(y|x)是学生模型给定输入 x 生成输出 y 的条件概率。通过最小化这个损失函数,学生模型逐渐学会模仿教师模型的行为,从而将教师的知识"蒸馏"到学生模型中。
2025-03-12 11:23:09
932
原创 大模型学习笔记-大模型蒸馏-知识提取方法
这种范式转变主要归因于LLMs如 GPT-4 和 Gemini 所拥有的广泛和根深蒂固的知识。而LLMs的不可访问参数使得使用剪枝或量化 技术进行压缩变得困难。与早期时代的目标是复制教师模型的输出行为或减少模型大小不同,基于LLM的知识蒸馏的当前重点是提取这些模型所具有的特定知识,以及推理思维,偏好对齐和价值对齐。大模型蒸馏传统知识蒸馏算法相比,数据增强已成为实现LLMs知识蒸馏的流行范式,其中使用一小部分知识种子来提示LLM生成更多与特定技能或领域相关的数据。
2025-03-03 14:37:54
1872
原创 技术学习笔记-知识蒸馏
温度参数是用来控制学生模型对负标签关注程度(对“思考过程”关注程度)的参数。温度较高时,概率分布(软标签)会比原始分布更加平缓,也就是说学生模型会更加关注负标签;温度较低时,学生模型对负标签的关注则较小。实际上,负标签中包含一定的信息,尤其是那些值显著高于平均值的负标签。但由于Net-T的训练过程决定了负标签部分有较多噪声,并且负标签的值越低,其信息就越不可靠。从有部分信息量的负标签中学习 --> 温度要高一些防止受负标签中噪声的影响 -->温度要低一些。
2025-02-20 11:38:15
1821
原创 技术学习笔记-需求优先级的确认方法
在需求收集的过程中,产品经理需要甄别出这个需求对产品最终成功指标的影响度。对于大客户项目,让大客户满意的是最关键的点。当我们分析需求优先级的时候,可以根据权力/收益矩阵来确认优先级。通常我们会重点关注A、B区域的利益相关者,他们通常是购买方的采购负责人和公司老板。对于C、D我们不需要投入过多关注,但是也不能疏忽,他们可能对这个项目购买存在间接影响力。案例:培训企业购买师资机构的在线企业培训系统。
2025-02-16 15:37:07
1445
原创 技术学习笔记-推理模型
推理”为回答需要复杂、多步骤生成并包含中间步骤的问题的过程。而推理模型相对于通用模型,通过对解题过程的推理使其在多步骤分析和解决复杂问题上更占有优势。
2025-02-14 19:00:38
1248
原创 五一卷羊驼三-结课小作业
我们发现微调之后就模型出现了对历史知识的灾难性遗忘。可能是数据集数据单一以及微调训练过拟合的导致的。模型量化结果,可以看到占用的现存大大减少。## lmdeploy模型部署。服务器部署,客户端对话结果。
2024-05-06 12:28:53
197
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人