AI 情感聊天机器人工作之旅 —— 与复读机问题的相遇与别离-CSDN博客

本文链接：https://blog.csdn.net/weixin_43378396/article/details/138823288

前言：先前在杭州的一家大模型公司从事海外闲聊机器人产品，目前已经离职，文章主要讨论在闲聊场景下遇到的“复读机”问题以及一些我个人的思考和解决方案。文章内部已经对相关公司和人员信息做了去敏，如仍涉及到机密等情况，可删除。

meta 开源 Llama2 后，我们立马将基座模型从 Llama1 更换为了 Llama2。很重要的一个原因在于 Llama2 的 context length 是 4k，是 Llama1 的 2 倍，对于日益增长的角色人设 prompt 来说，2k 已经不满足线上产品使用。

在将 base 模型从 Llama1 “升级”到 Llama2 后出现了单句重复问题，该问题也被业界定义为“复读机问题”——模型会在一轮回复中不断重复某一相同或语义相似的子句，直到 max_new_tokens（最大输出长度）。

PS：Llama1 有没有这个问题已经无法追溯，其一，当时还没有在 sentry 查看日志链路的习惯；其二，产品和社区没有反馈该类问题，产品妹子们更多地是反馈多轮重复问题——模型在多轮对话中重复相同的内容。

由于当时尚处于 8 月份，vLLM 框架的集成以及后续将部署服务代码改造成 continuous batching 都仍处于“未来时”，模型直接使用 HuggingFace Transformers 库加载并流式输出。？B 大小的模型，其推理速度在 max_new_tokens = 500 场景下很容易超时（20 秒），即使不超时，也会占用消费者 worker 大量时间，出现消息队列拥堵，因此 sentry 报警的信息非常多&#