hylreg-CSDN博客

原创 PPO 和 DPO

PPO（近端策略优化）和DPO（直接偏好优化）是强化学习中的两种重要算法。PPO通过策略比率裁剪实现稳定训练，适用于机器人控制等任务；而DPO直接利用人类偏好数据优化策略，更适合语言模型对齐。PPO依赖环境奖励信号，计算高效但需设计奖励函数；DPO跳过奖励建模，但需要高质量偏好数据。选择算法需根据任务特点：PPO适合奖励驱动的场景，DPO更适合基于人类反馈的应用。

2025-08-29 09:25:52 1085

大模型评估指标体系主要分为三类：1）语言建模能力指标，如困惑度(Perplexity)和比特数(BPB)，用于衡量预测准确性；2）文本生成质量指标，包括基于n-gram的BLEU、ROUGE和基于语义的BERTScore；3）任务性能指标，如问答任务的精确匹配(EM)、分类任务的F1分数等。评估时需注意指标局限性，建议组合使用多指标并适配具体任务需求，同时结合人工评估，确保全面客观地衡量模型性能。

2025-08-29 09:24:55 1080

原创多模态中视觉编码器和投影器的作用

视觉编码器和投影器是多模态系统中的核心组件。视觉编码器（如CNN或ViT）将图像转换为高维特征向量，提取语义信息；投影器则将这些特征与文本等其他模态映射到共享空间，消除模态差异。二者协同工作，通过端到端训练实现模态对齐，提升多模态任务（如检索、生成）的性能。典型的应用包括CLIP等模型，其中视觉编码器提取特征，投影器确保跨模态语义一致性。

2025-08-29 01:14:53 1491

原创怎么解决大模型幻觉问题

摘要：大模型幻觉表现为生成虚假或矛盾内容。解决方法包括：1）优化训练数据质量与多样性；2）改进算法（如对比学习、强化学习）；3）后处理核查（结合外部知识库）。技术实现可采用检索增强生成（RAG）和概率阈值过滤。需持续评估（如FactScore指标）并迭代更新数据，以提升模型准确性。（99字）

2025-08-27 23:24:58 502

原创多模态模型如何处理和理解图片

多模态模型通过视觉编码器（如CNN或ViT）提取图像特征，将其映射到共享嵌入空间并与文本对齐。模型利用跨模态注意力机制实现图像理解，支持分类、生成和推理任务。核心是通过对比学习对齐图像与文本语义，依赖大规模预训练优化参数。例如，处理"海滩日落"图片时，模型能识别场景元素并回答相关问题。

2025-08-27 23:22:29 1511

原创大模型的多机多卡训练

大模型训练需要多机多卡协同，主要采用数据并行、模型并行和混合并行三种方法。数据并行通过AllReduce同步梯度，模型并行将模型拆分到不同设备，混合并行则结合两者优势。优化技术包括ZeRO内存优化、梯度检查点和高效通信等。实际部署需考虑硬件配置、批量调整和容错机制，并通过性能监控工具持续优化。合理选择并行策略可在数百GPU上高效训练千亿参数模型。

2025-08-25 22:34:39 745

原创 Transformer模型详解

本文详细解析了Transformer模型的架构和核心组件。Transformer采用编码器-解码器结构，核心创新在于自注意力机制，通过计算序列元素间的依赖关系实现高效并行处理。模型包含多头注意力、位置编码、前馈网络等关键模块，并采用残差连接和层归一化优化训练。解码器通过掩码机制保持自回归特性。Transformer在自然语言处理领域具有显著优势，如并行计算效率高、长距离依赖建模能力强，但也存在计算复杂度高、对长序列处理有限等局限。该架构已成为现代大语言模型的基础。

2025-08-25 22:34:09 1086

原创大模型中的意图识别

意图识别是自然语言处理的核心任务，旨在理解用户输入背后的目的。大模型通常将其视为分类问题，通过预训练和微调实现高准确率。关键技术包括文本嵌入和分类决策，数学上建模为多类分类问题。应用场景广泛，如客服、智能助手等，但面临歧义性、数据依赖等挑战。未来趋势包括多模态输入和零样本学习优化。

2025-08-24 20:28:32 1485

原创什么是大模型的指令跟随

大模型的指令跟随是指大型语言模型理解并执行用户指令的能力，使其能灵活完成问答、创作等任务。其核心是通过预训练学习语言模式，再经指令微调优化响应准确性。应用广泛，如写作、编程等，但需清晰指令以避免偏差。该功能依赖统计学习而非真实理解，用户可通过优化指令提升效果。

2025-08-24 20:24:56 1112

原创 LLaMA-Factory 中配置文件或命令行里各个参数的含义

这篇文章汇总了深度学习模型训练和推理中常用的参数分类及其含义。主要分为模型相关、数据集相关、训练相关、PEFT/LoRA参数、推理生成相关、量化参数和其他常用参数七大类。其中涵盖了模型路径、训练设置、微调方式、生成控制、量化配置等关键参数，如学习率、batch大小、LoRA配置、温度系数等，并简要说明了各参数的作用和典型取值。这些参数对模型性能、训练效率和推理效果有重要影响，是调优过程中的关键控制变量。

2025-08-23 22:16:00 949

原创 LoRA 微调

LoRA（低秩适应）是一种高效微调大型模型的技术，通过低秩分解减少参数量。其核心是为原始权重添加低秩增量ΔW=BA，其中B和A为可训练的小矩阵（r<<d,k）。实现时冻结原模型，仅在注意力模块旁添加BA矩阵进行训练。优势包括参数量减少100倍以上、无推理延迟（可合并权重）及模块化适配。适用于大模型领域适配、多任务学习等场景，建议在注意力层应用并合理选择秩r平衡效率与性能。

2025-08-23 22:15:34 439

原创 dify 调用本地的 stable diffusion api生成图片的工作流搭建

本文介绍了如何搭建Dify调用本地Stable Diffusion API的工作流。主要内容包括：1)准备SD API服务，验证接口可用性；2)在Dify中配置HTTP请求节点处理图片生成；3)设置数据处理和输出节点。关键注意事项涉及网络配置、安全加固和性能优化，建议启用xformers加速并设置合理超时。调试时可使用Postman测试API，查看SD日志定位问题。首次运行时建议从简单提示词开始测试，逐步增加复杂度。该方案实现了Dify与本地SD API的无缝集成，为AI图像生成提供了便捷的工作流解决方案。

2025-08-16 23:57:55 1412

原创 ollama 自定义模型

Ollama 支持通过 Modelfile 自定义语言模型，用户可以指定基础模型、调整推理参数、定义系统提示词等。操作步骤包括：创建包含配置的 Modelfile（如设置 temperature 参数和系统提示），使用 ollama create 构建自定义模型，并通过 ollama run 运行。还支持高级功能如添加 LoRA 适配器、自定义对话模板等。构建的模型可分享到 Ollama 仓库或通过 REST API 部署。整个过程灵活简便，适合不同级别的自定义需求。

2025-08-16 19:30:00 1336

原创矩阵的秩（Rank）

矩阵的秩是线性代数中的核心概念，表示矩阵中线性无关的行或列的最大数量，反映了矩阵所包含的“独立信息”的多少。秩的定义包括行秩和列秩，且两者始终相等。几何上，秩表示矩阵对应的线性变换后空间的维度。计算秩的方法有高斯消元法、行列式法和奇异值分解。秩的性质包括其范围、满秩矩阵的定义以及与方程组解的关系。秩在数据降维、机器学习、图像压缩和系统可控性等领域有广泛应用。理解秩的概念对于分析线性方程组、数据降维和算法设计至关重要。

2025-05-20 22:11:24 7654

原创四元数中 w xyz 的含义及应用

四元数是一种用于表示三维空间旋转的数学工具，形式为 q=w+xi+yj+zk，其中 w 是实部，x、y、z 是虚部。实部 w 编码旋转角度的一半余弦值，虚部 x、y、z 编码旋转轴方向和角度的一半正弦值。四元数表示旋转时需满足单位四元数条件，以确保旋转的合法性和稳定性。与欧拉角和旋转矩阵相比，四元数具有高效、无奇异性的优势，适合插值和组合旋转，因此在计算机图形学、机器人学和游戏开发中广泛应用。

2025-05-20 21:01:06 1593

原创 join() 和 detach()的使用区别

在 C++ 多线程编程中，join() 和 detach() 是管理线程生命周期的核心方法。join() 用于阻塞当前线程，确保主线程等待子线程完成后再继续执行，适用于需要同步结果或控制执行顺序的场景。detach() 则使子线程独立于主线程运行，适用于后台任务或无需返回结果的独立任务，但需谨慎处理资源生命周期以避免悬垂引用。使用这两个方法时，必须在线程对象销毁前调用其中之一，否则会导致程序终止。最佳实践包括使用 RAII 包装类确保异常安全，以及避免在分离线程中访问局部变量。正确选择和使用 join()

2025-05-13 11:48:45 630

原创 Transformer中Query-Key-Value（QKV）机制的详细解析

Transformer模型中的Query-Key-Value（QKV）机制是其自注意力模块的核心，用于动态捕捉序列中的上下文关系。Q（Query）代表当前词需要查询的信息，K（Key）表示每个词能提供的信息，V（Value）则是实际传递的信息。通过Q与K的匹配，模型能够确定哪些词与当前词相关，并聚合它们的V。这种机制取代了传统RNN/CNN的固定模式交互，实现了长距离依赖的直接建模和并行计算。此外，QKV机制还支持多头注意力、交叉注意力和掩码注意力等变体，增强了模型的灵活性和表达能力。通过角色分离，Q、K、

2025-05-13 11:47:55 1705 1

原创 QGraphicsView QGraphicsScene QGraphicsItem 的关系

在Qt的图形视图框架中，QGraphicsView、QGraphicsScene和QGraphicsItem 三者协同工作，构成一个分层的结构，用于高效管理和显示复杂的图形界面。

2025-05-02 21:22:11 698

原创我的创作纪念日

提示：你过去写得最好的一段代码是什么？提示：当前创作和你的工作、学习是什么样的关系。提示：可以和大家分享最初成为创作者的初心。提示：在创作的过程中都有哪些收获。提示：职业规划、创作规划等。

2025-05-02 21:21:50 241

原创 xml 和 yaml 的区别

XML 和 YAML/YML 是两种常用的数据序列化格式，用于存储和读取结构化数据。

2025-05-01 18:10:16 962

原创 cv::remap() 和 cv::undistortion() 的区别

特性cv::remap输入参数相机内参 + 畸变系数预计算的映射表 (map1, map2)计算开销每次调用都重新计算映射表，效率较低映射表预先计算，适合多帧复用，效率高灵活性仅支持标定参数定义的畸变校正支持任意几何变换（如畸变、旋转、缩放等）适用场景单次图像处理或简单应用实时视频处理、需自定义映射的复杂场景。

2025-05-01 18:03:24 620