你的公司需要“训练”一个自己的大模型么？-CSDN博客

ChatGPT登场还不到一年，各路大佬们就忙着撸新模型了。Anthropic的Claude，DeepMind的Chinchilla先后面世。Meta放出了LLaMA2，以及很多LLaaaaaaMA2之类的。“要自己的ChatGPT”成为了各公司的新梦想。

但这梦想真的值得追吗?我们先理理思路。

“要自己的ChatGPT”听起来很酷，但实际操作起来啥意思呢?要么自己从0撸出新模型，要么对现成的模型进行微调(我们技术宅称为Fine-tuning)，实际上这两条路对大多数企业来说都不靠谱。

自己从头做模型？我必须说，这真的很可怕。光收集训练数据就得50TB，相当于...上一次有个哥们给我看了一下目录我就放弃了，那是上万本书！AI元老级公司开发新模型都非常吃力，你看动不动就是好几十亿美金还不够用的。

那Fine-tuning就简单多了?理论上是的，但实操过程还是有各种坑的。首先啥都没有啊，没有数据啊，要成千上万个案例才够啊!就算数据搞定了，整个Fine-tuning的花费预算也得200万RMB起步。想自己部署?那预算直接翻倍吧。

最惨的是，Fine-tuning完了还不等于让模型听你话。这就像你给实习生塞了一堆资料，然后指望他自动get到你的意图一样天真。到最后模型生成出来的结果什么鬼你都不知道，我说的是真的，大多数时候fine-tuning出来发现其实还不如不tuning。

我的建议是，除非你公司超级看重数据安全只能on-premise部署，或者你们整个行业都觉得有必要投资开发共享的领域定制模型，大多数公司完全不需要非要自己Fine-tuning什么的。

我们提倡的方法是，编写软件去智能组织提示（Prompt），巧妙地利用现有的强大LLM，我们称之为“Prompt Architecture”，并利用Semantic Kernel这样的框架把你要实现的意图们和所需要实现的功能装进去。

简单来说，就像程序员把简单的函数封装起来组成复杂的程序逻辑一样，我们可以构建各种prompts，甚至动态生成prompts，最终实现完整的交互流程，而不仅仅是单个的提示工程。

举个例子，用户问:“我可以请几天年假?”我们可以先提供背景信息:“小明是员工，目前在试用期，根据规定最多只能请X天假。”然后我们让比如ChatGPT基于这些上下文来回答用户的问题。最后我们还可以用各种方法检查ChatGPT的回答，确保其正确性。

这样，我们就可以随心所欲地指挥ChatGPT了，不会像那些Fine-tuned的模型一样，结果不受控制。而且准确性有保证，口气和品牌风格也可控。

所以我的建议是，除非你们非常有钱或者高要求的安全合规，大部分公司完全不需要强求“自己的ChatGPT”。利用现有模型提供的强大能力，通过巧妙的Prompt Architecture来实现交互，才是更经济、可控的选择。

如果你真的在犹豫，可以找我们Ai4C的专家们，他们来看几眼你们的数据和基础架构，就能给出一个公允的建议。