OpenAI开发者大会是创业公司屠杀夜？-CSDN博客

本文链接：https://blog.csdn.net/weixin_30230009/article/details/134279647

抄了一下朋友文章的标题，只能说，还是他们会起文章名。

因为我最近几个月的工作都是围绕OpenAI在开发项目，所以本文聊一下OpenAI最新功能的一些限制，供各位判断是要直接用API还是继续自建。

Knowledge Retrieval（知识检索）

OpenAI的Knowledge Retrieval会有一些限制：

价格
每个Assistant（助手）最多只能上传20个文件，每个文件最大512MB，最多10G

https://openai.com/pricing

https://platform.openai.com/docs/assistants/how-it-works/creating-assistants

如果你有很多个Agent，每个Agent的知识库是独立的，此时使用Assistants API的Knowledge Retrieval就比较贵，不如自建，自建的代码量其实也很小，然后你还可以自己定义各种召回手段，详细看我之前的文章：基于ChatGPT构建知识库。

Code Interpreter（代码解释器）

这个是我比较关注的，因为我上周主要工作量就是参考各种开源项目（AutoGen、Open-Interpreter、codeinterpreter-api)，弄了一个符合我们自己要求的Code Agent。

本来我是打算直接用OpenAI的Code Interpreter试一下的，但发现它关了，然后才有Open-Interpreter这些，然后我就花时间实现好了Code Agent，现在又支持了，一口老血吐了出来。

不过，调研一下，我应该暂时还是不会去使用OpenAI Code Interpreter，其限制如下：

有限的Python库支持
120s的最大运行时间
中途崩溃，所有中间状态都会被清除

而我在做的领域比较细，很多Python库都是比较小众的，所以OpenAI Code interpreter可能没有，如果是常见的代码生成需求，我感觉OpenAI Code Interpreter确实可以解决大多数问题。

此外，如果你想要自己开发，建议抄AutoGen的源码。

Text-to-speech（文本转语音）

https://openai.com/pricing

相比我现在用的elevenlabs，确实便宜很多，正常价格5刀，3w characters，而同样的characters数在OpenAI上，只需要0.45刀。

但目前应该还是会用一段时间elevenlabs，因为我们还用着elevenlabs的音色克隆，但这个价差，早晚要换。

GPT-4-Vision（图片解析）

当Vision没有推出时，我们也希望有多模态能力，一个想法就是让GPT生成代码去调研CLIP Model相关的能力（从一篇论文上看见这样思路的项目，有代码实现），从而实现图片解析，现在Vision推出了，这个就不用做了，还好功能优先级不高，不如这个是真白搞了，哈哈。

本地LLM

我在实践时，有个具体的问题，就是多agent系统中，agent交互时，整个流程对用户而已还是太慢了，用户提问，我们的多个agent交互讨论获得最终结果给到用户，这个过程太长，体验就很不好，然后OpenAI API Token Limit也很容易触达（要换Azure），所以还是有一些不好友好的体验。

关于速度问题，确实是硬伤，此时本地LLM的优势就出来了 - 速度很快，但效果相比于GPT4会差挺多，需要根据你的业务进行取舍。

结尾

OpenAI的规模优势让其可以给出极低的定价，这是他的杀手锏，你很难跟他在价格上竞争。

另外，很多常见的领域，比如教育、编程、金融这些，因为足够常见，市场空间也足够大，OpenAI本身就会很有兴趣去做这些市场，比如OpenAI自己的Blog发了很多教育相关的内容，所以我感觉学口语的APP会比较困难，但这并不表示完全没有生存空间，就算OpenAI做了很牛逼的口语教育APP，还是有用户会用他其他APP的，就是你比较难做很大的事情了。

噢噢噢~，对了，我还弄了一个关于什么是AI Agent的视频，有兴趣可以看看：https://www.bilibili.com/video/BV1eH4y167JG/

以上。