聊聊大模型的屏蔽词工程

最新推荐文章于 2025-05-10 23:00:00 发布

快乐非自愿

最新推荐文章于 2025-05-10 23:00:00 发布

阅读量1.2k

点赞数 5

文章标签： easyui 前端 javascript

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kfashfasf/article/details/137872313

版权

本文探讨了在微调训练中如何处理含有敏感词汇的情况，如自杀、跳楼等，涉及敏感词库构建、识别算法（包括机器学习）、Prompt提示词的应用以及模型微调。作者通过实例展示了如何使用Prompt工程改善模型对敏感词的响应，并强调了NLP识别在其中的关键作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

在做微调训练时，鉴于业务场景的需要，可能会存在微调数据集中含有敏感词汇，譬如：自杀、跳楼等。而开源模型可能没有做敏感词汇的屏蔽工程。因此可能就会出现不可预控的现象，而我遇到的是，当我输入敏感词汇时，模型(基于ChatGLM3)大多数时候返回空，继续正常提问，还是空的。此时模型相当于已经挂了。普遍来看，敏感词汇的覆盖场景是比较多的，尤其是控制不了用户的输入，很有可能就会恶意或无意的输入敏感词，而模型如果不能正常的回复，或是屏蔽这类词汇，很容易就会出现我的问题。

解决策略

从整个流程分析来看，敏感词处理是一件大工程，涉及到的方面比较多。如下：

建立敏感词库
算法——识别敏感词
模型训练时，提前对输入的敏感词预处理屏蔽或删除敏感词汇使用占位符替换敏感词
针对敏感词，模型的回复处理直接提示，并拒绝相关回答安慰疏导

敏感词识别检测

对于前两者，一般是配套一起的；建立了敏感词库，通过算法检测识别敏感词。目前也有各种算法库来支持。而且原先各种算法，譬如：前缀树算法、AC自动机、DFA算法等；随着机器学习的发展，目前也有

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。