CHEN_RUI_2200-CSDN博客

原创使用Rag 命中用户feedback提升triage agent 准确率

本文提出使用RAG（检索增强生成）技术提升多租户场景下智能分诊系统的准确性。针对租户业务差异大、数据安全要求高等约束，方案采用大语言模型(LLM)为核心，通过构建向量知识库存储历史标注数据，在新反馈到来时检索相似案例注入提示词，实现无需模型微调的"类记忆"效果。技术实现选用MaxKB框架和pgvector数据库，通过语义检索+上下文增强的方式，在测试中达到了100%的分类准确率。相比微调方案，RAG具有更新灵活、成本低、可溯源等优势，特别适合知识频繁变更的场景，为后续智能化升级奠定了基础

2025-08-28 16:09:45 584

原创工单分类微调训练运维管理工具原型

摘要：基于Unsloth的智能工单分类系统开发实践本文介绍了一个高效智能工单分类系统(TicketTriageAI)的开发过程。针对传统Longformer模型训练时间长、多租户适配困难等问题，团队采用了以下技术方案：模型优化：使用Qwen2-7B作为基础模型，结合Unsloth的LoRA技术实现高效微调，显著降低训练时间和资源消耗系统架构：训练模块：支持JSON数据上传和模型微调部署模块：通过FastAPI提供实时预测服务预测模块：结合SentenceTransformers实现语义匹配关键

2025-08-07 15:31:02 726

原创基于Longformer和PMF 实现Asset推荐

本文提出了一种基于Longformer模型和概率矩阵分解(PMF)的资产推荐系统，用于为租户推荐自动化工具等数字资产。系统整合了资产描述文本(Longformer提取768维向量)、用户行为特征(如考勤功能使用情况)和社交关系(兴趣组成员)三类数据。通过改进的SocialPMF算法，将103维用户特征投影至资产特征空间进行评分预测，实现了语义理解与协同过滤的结合。实验表明，该方法能准确匹配租户实际使用的资产，同时提供多样化的新资产推荐。未来可通过引入更多租户特征和量化评估指标进一步优化系统性能。

2025-08-01 17:02:18 993

原创 GAT 图注意力网络在上交CS3319 课程项目上做链接预测

本项目基于上海交通大学CS3319课程，构建学术推荐系统解决作者-论文链接预测问题。研究使用地球科学领域6,611位作者和79,937篇论文数据构建异构网络，包含作者、论文节点及引用、合著关系。采用RGCN和GAT模型处理多关系图数据，通过关系图卷积和注意力机制生成节点表征，最终预测作者是否阅读论文的二元分类。实验使用DGL框架实现四层异构图卷积网络，结合批量归一化和激活函数优化模型性能。该研究为学术推荐系统提供新方法，尤其针对引文推荐场景中的冷启动问题。

2025-07-24 17:14:23 743

原创 autogen 构建多 Agent 服务工单优先级分类

本文探讨了利用AutoGen框架构建多Agent系统来自动化IT支持工单优先级分类的方法。系统包含DetailedPriorityAgent（基于10个维度详细评估）和SimplifiedPriorityAgent（适配用户自定义标准）两个核心Agent，通过对话协作完成工单分类。实验表明，该系统能有效平衡通用评估标准与用户特定需求，在分类准确性、错误纠正和可扩展性方面表现优异。这种多Agent协作模式不仅提高了IT工单处理效率，其灵活架构还可扩展应用于客户服务、项目管理等需要多维决策的场景。

2025-07-23 11:15:07 636

原创使用 Longformer-base-4096 进行工单问题分类

本文介绍了一个基于Longformer-base-4096模型的工单分类系统，该模型支持4096个token的长文本处理，能有效避免信息截断。系统采用滑动窗口注意力机制提高计算效率，并继承RoBERTa的优秀语义理解能力。通过分层采样划分数据集，使用交叉熵损失进行多分类训练，在验证集上达到86.24%的准确率。方案将先进的NLP技术与工程设计结合，实现了高效、鲁棒的长文本分类功能，特别适合工单系统、客服邮件等场景。

2025-07-21 15:58:11 947

原创 MMoE模型在实际预测任务中优化

摘要：本文提出OptiMMoE模型，针对传统多门混合专家模型（MMoE）的局限性进行优化改进。通过引入输入投影层、加深专家网络结构、采用增强门控机制和残差连接等技术，OptiMMoE显著提升了模型性能。实验验证表明，在Census-Income和MovieLens-1M等数据集上，OptiMMoE相比基线MMoE平均准确率提升5%，F1分数提高0.04，验证损失方差更低。该模型在推荐系统、多标签分类等需要鲁棒多任务学习的场景中展现出优势，其改进的架构设计有效解决了浅层网络、简单门控等制约因素，为复杂多任务学

2025-07-10 09:54:23 906

原创基于大语言模型进行Prompt优化

本文介绍了Prompt工程在优化大语言模型性能中的应用，通过自动化迭代优化技术提升工单根因分析的准确性。文章首先阐述了Prompt工程的技术背景，指出其相比传统NLP方法的优势在于降低开发成本。创新点包括：1）自动化优化框架结合链式推理生成针对性提示；2）使用句向量余弦相似度作为客观评估指标；3）完善的错误处理和进度保存机制。代码分析展示了如何通过Python实现Prompt变异、模型调用和性能评估，最终在训练集上将相似度得分从0.57提升至0.69，验证集结果证明了优化的泛化能力。该技术为工程化Promp

2025-07-03 10:58:34 738

原创利用4o补全cot再微调一个智能客服

智能客服系统正从"被动响应"向"智能协同"升级。传统规则引擎难以处理复杂语义场景，而GPT-4o等大语言模型通过Chain-of-Thought（CoT）推理能力，可实现问题结构化理解、多轮对话分析和上下文感知响应。实践表明，结合CoT提示工程与模型微调，可构建具备逻辑推理、知识库匹配和安全响应能力的客服系统。系统采用分步推理架构，先通过<think>标签生成分析过程，再用<answer>输出解决方案。这种方法在工单处理测试中展现出对业务场景的

2025-07-01 10:21:07 909

原创 unsloth 在medical-o1-reasoning-SFT对话数据集上进行指令微调

处理的 FreedomIntelligence/medical-o1-reasoning-SFT 数据集是典型的 SFT + 长文本 CoT + 生成任务，这时候 Unsloth 的以下优势特别明显：支持超长输入上下文医疗推理数据中每条样本可能包含较长的 chain-of-thought（CoT），一般在 2048-8192 tokens 左右。Unsloth 专门优化了对 32K、64K、128K上下文长度的支持，远优于普通 transformers + peft。训练速度极快

2025-06-21 16:43:39 1024

原创逻辑回归暴力训练预测金融欺诈

使用逻辑回归暴力预测金融欺诈，并不断增加特征维度持续测试」的做法，，在金融欺诈检测中非常有价值，本文作为一篇回顾性记录了早年间公司给某行做反欺诈预测用到的技术和思路。百度原始论文目前搜不到了，当时这篇论文的要点就提到，通过特征增广，只要是特征就用起来，使用最简单的逻辑回归模型来提高预测的精确度。在工程上会攒出惊人数量级的特征维度，但是效果也是很明显的简单说了有很明显的以下意义。

2025-06-09 16:48:17 1496 1

原创 GSM8K 数据集上测试GRPO 训练

摘要：本研究提出GRPO（Guided Reward Pretraining with Offloading）方法，用于提升语言模型的数学推理能力。该方法在GSM8K小学数学数据集上进行训练验证，通过双重奖励机制（答案正确性和输出格式规范性）和KL散度正则化，平衡推理能力与语言生成能力。实验采用分布式训练优化技术，包括DeepSpeed的ZeRO-1和参数Offloading，有效降低显存消耗。结果显示，GRPO在解题准确率（73.5%）和推理过程规范性（85.2%）上较传统RLHF方法分别提升12.3%和

2025-06-05 12:08:16 1133

原创探讨下LLM 在逻辑推理中的记忆现象

这篇论文研究了大型语言模型(LLMs)在逻辑推理任务中的表现机制。通过"骑士与无赖"逻辑谜题实验发现：1)LLMs能完美记忆训练数据(准确率近100%)；2)对稍有变化的谜题表现不佳，显示泛化能力有限；3)微调会增强记忆但也能提升泛化性能；4)模型会在记忆和推理策略间切换。研究质疑了LLMs高性能完全源于推理能力的假设，揭示了记忆的重要作用，为理解模型推理机制提供了新视角。

2025-05-30 09:21:03 1055

原创网络拓扑如何跨网段访问

最近领导让研究下跟甲方合同里的，跨网段访问怎么实现，之前不都是运维网工干的活么，看来裁员裁到动脉上了碰到用人的时候找不到人了，只能赶鸭子上架让我来搞IP 网络中，，不处理不同 IP 网段的数据包，当源和目标不在同一子网，必须通过路由器查路由表转发以。

2025-05-27 11:48:21 950

原创探索Qwen2ForCausalLM 架构上进行微调

试验参考了mini_qwen 的开源实现GitHub - qiufengqijun/mini_qwen: 这是一个从头训练大语言模型的项目，包括预训练、微调和直接偏好优化，模型拥有1B参数，支持中英文。这是一个从头训练大语言模型的项目，包括预训练、微调和直接偏好优化，模型拥有1B参数，支持中英文。分词器使用Qwen/Qwen2.5-0.5B-Instruct，通过扩充模型隐藏状态层数、嵌入层维度和注意力头数，增加参数量到1B，使用flash_attention_2进行加速。

2025-05-23 19:51:46 1132

原创训练推理模型 (Reasoning Model)

DeepSeek-R1论文提出了一种新的LLM训练范式，强调通过多次冷启动和RL奖励训练来提升模型的推理能力。推理能力依赖于模型架构、预训练知识和微调/强化学习，但预训练模型通常缺乏针对推理的显式优化。冷启动通过多次初始化帮助模型探索参数空间，避免局部最优，而RL奖励训练则通过奖励函数引导模型生成逻辑连贯的推理步骤。多次冷启动与RL奖励训练的协同作用能够有效提升模型的推理能力，但参数较小的模型难以通过此方法获得显著效果。论文还介绍了推理模型的训练代码关键点，包括特殊token的定义、损失函数与惩罚机制、混合

2025-05-22 15:33:49 1136

原创 Lora 微调医疗场景专家LLM

使用魔塔社区的 medical.jsonl ，已经转换为标准的lora训练格式在这篇试验的RLHF 基座模型上开始lora 微调增加模型参数，扩大词表和增加MOE提升 LLM 推理能力-CSDN博客本文介绍了使用MiniMind框架训练专属语言模型的方法。通过调整LMConfig参数，将模型参数量从26M提升至100M级别（实际达到156M），重点探讨了MoE（专家混合）技术的应用。

2025-05-22 12:08:03 651

原创增加模型参数，扩大词表和增加MOE提升 LLM 文本生成能力

本文介绍了使用MiniMind框架训练专属语言模型的方法。通过调整LMConfig参数，将模型参数量从26M提升至100M级别（实际达到156M），重点探讨了MoE（专家混合）技术的应用。文章详细说明了模型结构设计、参数量计算公式、训练步骤（包括Tokenizer训练、预训练、监督微调和RLHF阶段）以及模型转换方法。实验表明，参数量的增加显著提升了模型性能，最终生成的0.156B参数模型效果优于之前的0.026B版本。该方案在有限GPU资源下实现了参数规模的合理扩展，为构建高效专用语言模型提供了实践参考。

2025-05-21 15:17:15 1048

原创超小多模态视觉语言模型MiniMind-V 训练

MiniMind-V是一个专为初学者设计的开源项目，旨在让用户能够在普通电脑上训练一个能够理解并描述图像的视觉语言模型（VLM）。该项目通过简化的训练流程，包括数据准备、预训练、微调和测试，使得整个过程既快速又经济，仅需1小时即可完成。MiniMind-V的模型轻量，仅含2600万个参数，适合预算有限但希望探索AI技术的用户。通过使用CLIP视觉编码器和MiniMind语言模型，MiniMind-V能够处理图文信息，生成相关描述或回答。该项目不仅降低了AI训练的门槛，还提供了一个实践多模态AI技术的平台。

2025-05-19 22:48:47 1178

原创 Westlake-Omni 情感端音频生成式输出模型

Westlake-Omni是由西湖心辰开发的开源中文情感端到端语音交互大模型，托管在HuggingFace平台。该模型通过统一的文本和语音模态处理，实现低延迟、高质量的中文情感语音交互。其核心特点包括统一模态处理、低延迟交互、情感表达和开源特性。Westlake-Omni采用离散表示法统一处理语音和文本模态，简化了跨模态交互，并支持实时语音输入和输出。模型架构包括输入编码器、统一嵌入层、Transformer核心、情感建模模块和输出解码器。Westlake-Omni在高质量中文情感语音数据集上训练，能够理解

2025-05-12 13:44:58 967

原创 TAPIP3D：持久3D几何中跟踪任意点

持久3D几何中跟踪任意点

2025-05-11 11:13:17 1030

原创 ALiBi (Attention with Linear Biases) 优化LLM 模型注意力

是一种注意力机制优化技术，最初在论文《》（2022）中提出。它通过在 Transformer 的注意力机制中引入线性偏置，取代传统的基于绝对位置嵌入（Positional Embedding）的编码方式，从而提高模型对长序列的泛化能力。使用线性形式的偏置，使得不同位置之间的关系可以通过简单的线性函数建模。这种方式不仅简化了位置编码的复杂性，还提高了模型的灵活性。也因为 ALiBi 不需要显式地计算每个位置的偏置，特别是在长序列中，其计算效率更高，能够在资源有限的情况下处理更长的输入。

2025-05-02 11:42:28 858

原创 StreamingLLM：让LLM拥有无限长生成能力

在流式场景（如多轮对话或实时处理无限长输入）中，传统方法（如滑动窗口或重新计算 KV）要么效率低下，要么丢失上下文。StreamingLLM 提出了一种创新方法，旨在让 LLM 在不改变上下文窗口大小的情况下，高效处理无限长输入。

2025-04-30 18:13:42 858

原创提示词工程（GOT）把思维链推理过程图结构化

相比于COT, TOT 思维图 Graph of Thoughts（GOT）是一种有助于增强模型推理能力和可解释性的方法，通过结构化的信息表示，促进多层次和动态的思考，能够有效应对复杂的自然语言处理任务。基于问题特点，我设计了一个多层次的 GoT，目标是全面解决这个问题，同时展示 GoT 的复杂性和灵活性。问题：“一个商店的商品原价是100元，打八折后卖出，再加上10元的运费，问最终价格是多少？：通过跟踪不同的思维路径，GOT 可以帮助模型探索多种可能的解决方案，而不仅仅是单一路径。：验证结果后改进答案。

2025-04-30 15:32:46 935

原创 yolov8+kalman 实现目标跟踪统计人流量

流程图步骤代码实现相关函数/类DetectionsSort.update 的输入 detsIoU Match创建新 KalmanBoxTracker删除长时间未匹配的跟踪器输出当前帧的跟踪结果。

2025-04-28 15:26:08 1531

原创 kylin v10 + argo + ascend 310p多机多卡 pytorch distributed 训练

我们在训练分布式时候，会使用到 torch.distributed.launch可以通过命令，来打印该模块提供的可选参数 python -m torch.distributed.launch --helpnnodes：节点的数量，通常一个节点对应一个主机，方便记忆，直接表述为主机node_rank：节点的序号，从0开始nproc_per_node：一个节点中显卡的数量。

2025-04-28 10:34:34 967 3

原创 VBA 调用 dll 优化执行效率

参数router：用于构建 API URL 的路径部分。函数首先定义了 API 的基本 URL，并将router参数附加到 URL 末尾。初始化变量：创建多个变量，包括用于存储 HTTP 请求对象、工作表对象、数据范围、快照字典等。遍历工作表函数遍历当前工作簿中的每个工作表，获取每个工作表的最后一行和最后一列的索引。如果工作表中有数据，创建一个字典sheetData来存储每个单元格的值和格式。收集数据使用双重循环遍历每个单元格，记录其地址、值和格式，并将它们添加到sheetData字典中。

2025-04-19 20:08:33 846

原创 ktrun 安装 ktransformers 并运行 DeepSeek-R1-UD-Q2_K_XL

KTransformers 是一个清华开源的LLM部署框架，主要用于优化大型语言模型（LLM）的推理过程。它通过先进的内核优化、GPU/CPU 异构计算和并行策略，显著提升模型推理速度并降低硬件需求。

2025-04-16 15:25:14 1326

原创 vanna + qwq32b 实现 text2SQL

Vanna 是一个开源的 Text-2-SQL 框架，主要用于通过自然语言生成 SQL 查询，它基于 RAG（Retrieval-Augmented Generation，检索增强生成）技术。Vanna 的核心功能是通过训练一个模型（基于数据库的元数据和用户提供的上下文），然后让用户通过自然语言提问来生成对应的 SQL 查询。它支持多种数据库和前端界面。

2025-04-10 20:38:44 1069

原创 UniK3D: 高精确通用单目Camera 3D 重建

UniK3D是一个用于单目3D几何估计的新框架，可以处理任何相机设置，从针孔到全景。它引入了一个完全球形的输出表示来建模3D场景，这允许更好地分离相机和场景几何。论文地址。

2025-04-09 11:41:16 1229

原创 ansible 实现达梦7数据库初始化数据脚本写入

关于使用ansible 对ARM版达梦7的k8s自动化部署参考我的这篇操作ansible-playbook 写arm版达梦7数据库的一键安装脚本-CSDN博客达梦官方提供镜像目前是dm8_x86 版本，因为众所周知的国产化方面的需求，需要在kylin v10机器上部署一个DM数据库以及其他使用数据库的服务，为了更便捷的交付需要把安装步骤都写入到ansible 脚本里，这里就单说下DM 的部署。下面进入另一个需要解决的问题，如何使用ansbile 实现达梦7数据库初始化数据脚本写入。

2025-04-08 16:08:12 1068

原创 ansible-playbook 写arm版达梦7数据库的一键安装脚本

达梦官方提供镜像目前是dm8_x86 版本，因为众所周知的国产化方面的需求，需要在kylin v10机器上部署一个DM数据库以及其他使用数据库的服务，为了更便捷的交付需要把安装步骤都写入到ansible 脚本里，这里就单说下DM 的部署。

2025-04-03 14:20:27 426

原创 diffusion-vas 提升遮挡区域的分割精度

初始化：加载模型、设置路径。数据准备：加载掩码和 RGB，生成深度图。无模态分割：用 pipeline_mask 预测无模态掩码，保存掩码及叠加结果。模态 RGB：处理并保存模态 RGB。内容填充：用 pipeline_rgb 生成无模态 RGB，保存 RGB 及叠加结果。图形模型代码确识看的费劲，比大模型技术要复杂费脑的多，就看到这里直接开始测试t=P1C7t=P1C7。

2025-04-02 11:41:43 1133

原创 k8s pod security context 总结笔记

securityContext 是 Kubernetes 中用于设置 Pod 或容器安全相关设置的重要字段，可以帮助限制 Pod 或容器的权限，提升安全性。总结下列出的 securityContext 字段及其含义。

2025-04-01 17:01:30 823

原创 Minimind 训练一个自己专属语言模型

发现了一个宝藏项目，宣传是完全从0开始，仅用3块钱成本 + 2小时！即可训练出仅为25.8M的超小语言模型最小版本体积是 GPT-3 的 17000，做到最普通的个人GPU也可快速训练trlpeft训练数据集下载地址创建./dataset目录, 存放训练数据集，该里清洗出字符<512长度的大约1.6GB的语料直接拼接而成关于“，它是一个完整、格式统一、安全的大模型训练和研究资源。

2025-04-01 16:27:51 1893

原创测试 SpatialLM 空间语义识别

之前使用sam-vit-base 辅助检测但是因为技术上还涉及到寻找prompt point , 大概率还是得通过视觉识别去找点。咨询方让我考虑下还有没有其他可行的方式，目前距离投标还有一段时间，正好借着这段时间研究下视觉圈前沿的模型成果。正好在社区翻看到篇 SpatialLM Introduction的简介。

2025-03-26 15:31:58 845 1

原创 HAMi 实现Ascend 训练卡虚拟化步骤

最近长沙跑了半个多月，跟甲方客户对了下项目指标，许久没更新回来后继续研究如何实现 grafana实现HAMi vgpu虚拟化监控，毕竟合同里写了需要体现gpu资源限制和算力共享以及体现算力卡资源共享监控先说下为啥要用HAMi吧，一个重要原因是公司有人引见了这个工具的作者，很多问题我都可以直接向作者提问。咨询了HAMi的作者，hami-plugin在纯升腾环境本来就不用装，需要装的是这个。HAMi 对华为昇腾卡的多卡支持上的叉叉，说的是支持多卡，但不支持多卡虚拟化。卡上配置310P和910是不同的。

2025-03-21 14:07:41 1218 1

原创早起读论文，当Transformers 不再需要归一化

听起来十分的不可思议，听起来好像不太可能，归一化在所有的深度学习框架里都出现过，算是基石一般的存在，在 Transformer 模型中，归一化层主要是指层归一化（Layer Normalization）。我们的工作挑战了归一化层对于训练现代神经网络是不可或缺的这一概念，并提供了对归一化层属性的经验性见解。喔，这个发现真是太关键了，想想看如果归一化层最后干的活和Tanh函数差不多，那为什么不直接用Tanh 呢，但是普通的Tanh不够灵活，所以论文团队搞出了一个升级版的Tanh函数，动态Tanh(DyT)

2025-03-19 15:24:22 1060

原创理解大模型的function call ，思维链COT和MCP 协议

在大模型中，是指模型调用外部功能或工具以完成特定任务的过程。这种机制使得模型不仅能生成文本，还能执行特定的操作，如生成图像、获取数据或进行计算。

2025-03-18 15:05:26 1836

原创浅分析 PE3R 感知高效的三维重建

近期，二维到三维感知技术的进步显著提升了对二维图像中三维场景的理解能力。然而，现有方法面临诸多关键挑战，包括跨场景泛化能力有限、感知精度欠佳以及重建速度缓慢。为克服这些局限，我们提出了感知高效三维重建框架（PE3R），旨在同时提升准确性与效率。PE3R采用前馈架构，实现了快速的三维语义场重建。该框架在多样化的场景与对象上展现出强大的零样本泛化能力，并显著提高了重建速度。在二维到三维开放词汇分割及三维重建上的大量实验验证了PE3R的有效性与多功能性。代码开源在。

2025-03-17 13:51:24 858

java版logstash

督办立项系统

打字机文字输出效果

利用verlet.js在H5canvas中模拟重力效果

空空如也