你的公司需要“训练”一个自己的大模型么?

ChatGPT登场还不到一年,各路大佬们就忙着撸新模型了。AnthropicClaudeDeepMindChinchilla先后面世。Meta放出了LLaMA2,以及很多LLaaaaaaMA2之类的。要自己的ChatGPT”成为了各公司的新梦想。

但这梦想真的值得追吗?我们先理理思路。

要自己的ChatGPT”听起来很酷,但实际操作起来啥意思呢?要么自己从0撸出新模型,要么对现成的模型进行微调(我们技术宅称为Fine-tuning),实际上这两条路对大多数企业来说都不靠谱。

自己从头做模型?我必须说,这真的很可怕。光收集训练数据就得50TB,相当于...上一次有个哥们给我看了一下目录我就放弃了,那是上万本书!AI元老级公司开发新模型都非常吃力,你看动不动就是好几十亿美金还不够用的。

Fine-tuning就简单多了?理论上是的,但实操过程还是有各种坑的。首先啥都没有啊,没有数据啊,要成千上万个案例才够啊!就算数据搞定了,整个Fine-tuning的花费预算也得200万RMB起步。想自己部署?那预算直接翻倍吧。

最惨的是,Fine-tuning完了还不等于让模型听你话。这就像你给实习生塞了一堆资料,然后指望他自动get到你的意图一样天真。到最后模型生成出来的结果什么鬼你都不知道,我说的是真的,大多数时候fine-tuning出来发现其实还不如不tuning。

361c3b092a3e40bbf5eb88cb9ed576ee.png

我的建议是,除非你公司超级看重数据安全只能on-premise部署,或者你们整个行业都觉得有必要投资开发共享的领域定制模型,大多数公司完全不需要非要自己Fine-tuning什么的。

我们提倡的方法是,编写软件去智能组织提示(Prompt),巧妙地利用现有的强大LLM,我们称之为“Prompt Architecture”,并利用Semantic Kernel这样的框架把你要实现的意图们和所需要实现的功能装进去

简单来说,就像程序员把简单的函数封装起来组成复杂的程序逻辑一样,我们可以构建各种prompts,甚至动态生成prompts,最终实现完整的交互流程,而不仅仅是单个的提示工程。

举个例子,用户问:“我可以请几天年假?”我们可以先提供背景信息:“小明是员工,目前在试用期,根据规定最多只能请X天假。然后我们让比如ChatGPT基于这些上下文来回答用户的问题。最后我们还可以用各种方法检查ChatGPT的回答,确保其正确性。

这样,我们就可以随心所欲地指挥ChatGPT了,不会像那些Fine-tuned的模型一样,结果不受控制。而且准确性有保证,口气和品牌风格也可控。

所以我的建议是,除非你们非常有钱或者高要求的安全合规,大部分公司完全不需要强求自己的ChatGPT”。利用现有模型提供的强大能力,通过巧妙的Prompt Architecture来实现交互,才是更经济、可控的选择。

如果你真的在犹豫,可以找我们Ai4C的专家们,他们来看几眼你们的数据和基础架构,就能给出一个公允的建议。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值