反着用scaling law验证数据：群聊场景指代消歧_根据scaling law 0.5b对应多少数据-CSDN博客

本文链接：https://blog.csdn.net/qq_39967751/article/details/138670379

本文作者：白牛

我们之前开源了 LLM 群聊助手茴香豆（以下简称豆哥），它的特点是：

设计了一套拒答 pipeline，实用于群聊场景。能够有效抵抗各种文本攻击、过滤无关话题，累计面对 openmmlab 数千用户运行半年（ 17 个群、7w 条群消息）。这个过程确认了 text2vec 模型更适合反着用
工业级开源。除算法 pipeline 外，还实现对应的 android、web service， License 支持商用
成本低。配合 LLM API 只需要 1.5G 显存

此外我们还工程优化了 ReRoPE，llama2 13B 在 A100 单卡上不训练，就可以从 8k 外推到 40k token。

然而在群聊中，豆哥往往会遇到类似对话：

张三：mmpose 支持移动端部署么？
李四：搭车问一下，怎么把它部署到 TX2 ？
王二：你们说的是哪家的算法框架？

显然 “它” 应该替换成 "mmpose"，然而豆哥处理李四的问题时，不能直接输入所有人的对话，否则会影响 pipeline 精度；受成本约束，也不能每一句都消，所以整件事第一步是，判断应不应该消歧。

项目链接：

https://github.com/internlm/huixiangdou

（文末点击阅读原文可直达，欢迎点亮小星星）

为了解决上述问题，我们使用的方法是手工标注 + SFT 优化 LLM，也就是 NLPer 常见地，用 LLM 优化下游 NLP 任务。

最终结果如上图，“0.5B 媲美 14B”。

绿色的是训练前的 precision 曲线，证明反反复复标一周没白干，确实能靠 scaling law 明确问题和训数据；

蓝色的是训练后的 F1 score 曲线。

14B 的 recall 是最高的、能达到 92.11
32B 的 F1 score 最高，到了85.58
额外地，MoE-2.7B 涨了 +29.07，详见见 arXiv 里的表格

本文贡献是：
1.如何证明标注本身没有 bias ？我们使用 scaling law 定义问题、确认标注可靠。
scaling law 是说数据内容不变，精度随参数量和训练数据量线性增大。
反过来想，取一组相同架构的 LLM（qwen 0.5～32B）不变，prompt 和数据标注变化。如果数据的精度表现，随模型体积而改善，那是不是证明了数据标得好？
当然这个 “标得好” 更多的是和 qwen 更契合，更容易 finetune、更适合 GPU-poor。

2.数据来自微信群聊——卷卷群（ncnn contributors group），我们开源了 2.3k 手工标注数据和对应的 LoRA weights，授权见末尾。

3.所有实验均可复现，trick 已在论文中注明。