抄了一下朋友文章的标题,只能说,还是他们会起文章名。
因为我最近几个月的工作都是围绕OpenAI在开发项目,所以本文聊一下OpenAI最新功能的一些限制,供各位判断是要直接用API还是继续自建。
Knowledge Retrieval(知识检索)
OpenAI的Knowledge Retrieval会有一些限制:
价格
每个Assistant(助手)最多只能上传20个文件,每个文件最大512MB,最多10G
https://openai.com/pricing
https://platform.openai.com/docs/assistants/how-it-works/creating-assistants
如果你有很多个Agent,每个Agent的知识库是独立的,此时使用Assistants API的Knowledge Retrieval就比较贵,不如自建,自建的代码量其实也很小,然后你还可以自己定义各种召回手段,详细看我之前的文章:基于ChatGPT构建知识库。
Code Interpreter(代码解释器)
这个是我比较关注的,因为我上周主要工作量就是参考各种开源项目(AutoGen、Open-Interpreter、codeinterpreter-api),弄了一个符合我们自己要求的Code Agent。
本来我是打算直接用OpenAI的Code Interpreter试一下的,但发现它关了,然后才有Open-Interpreter这些,然后我就花时间实现好了Code Agent,现在又支持了,一口老血吐了出来。
不过,调研一下,我应该暂时还是不会去使用OpenAI Code Interpreter,其限制如下:
有限的Python库支持
120s的最大运行时间
中途崩溃,所有中间状态都会被清除
而我在做的领域比较细,很多Python库都是比较小众的,所以OpenAI Code interpreter可能没有,如果是常见的代码生成需求,我感觉OpenAI Code Interpreter确实可以解决大多数问题。
此外,如果你想要自己开发,建议抄AutoGen的源码。
Text-to-speech(文本转语音)
https://openai.com/pricing
相比我现在用的elevenlabs,确实便宜很多,正常价格5刀,3w characters,而同样的characters数在OpenAI上,只需要0.45刀。
但目前应该还是会用一段时间elevenlabs,因为我们还用着elevenlabs的音色克隆,但这个价差,早晚要换。
GPT-4-Vision(图片解析)
当Vision没有推出时,我们也希望有多模态能力,一个想法就是让GPT生成代码去调研CLIP Model相关的能力(从一篇论文上看见这样思路的项目,有代码实现),从而实现图片解析,现在Vision推出了,这个就不用做了,还好功能优先级不高,不如这个是真白搞了,哈哈。
本地LLM
我在实践时,有个具体的问题,就是多agent系统中,agent交互时,整个流程对用户而已还是太慢了,用户提问,我们的多个agent交互讨论获得最终结果给到用户,这个过程太长,体验就很不好,然后OpenAI API Token Limit也很容易触达(要换Azure),所以还是有一些不好友好的体验。
关于速度问题,确实是硬伤,此时本地LLM的优势就出来了 - 速度很快,但效果相比于GPT4会差挺多,需要根据你的业务进行取舍。
结尾
OpenAI的规模优势让其可以给出极低的定价,这是他的杀手锏,你很难跟他在价格上竞争。
另外,很多常见的领域,比如教育、编程、金融这些,因为足够常见,市场空间也足够大,OpenAI本身就会很有兴趣去做这些市场,比如OpenAI自己的Blog发了很多教育相关的内容,所以我感觉学口语的APP会比较困难,但这并不表示完全没有生存空间,就算OpenAI做了很牛逼的口语教育APP,还是有用户会用他其他APP的,就是你比较难做很大的事情了。
噢噢噢~,对了,我还弄了一个关于什么是AI Agent的视频,有兴趣可以看看:https://www.bilibili.com/video/BV1eH4y167JG/
以上。