泼天富贵，OpenAI收购数据仓库公司，为什么？

最新推荐文章于 2024-07-17 09:51:15 发布

亲爱的数据

最新推荐文章于 2024-07-17 09:51:15 发布

阅读量908

点赞数 26

本文链接：https://blog.csdn.net/weixin_39640818/article/details/139943103

版权

泼天的富贵，

谁不喜欢呢。

OpenAI买哪家公司，

哪家公司就富贵。

比如，OpenAI收购“亲爱的数据”。

这种事，一般人也就只敢想想，

而谭老师我，不一样。

不仅可以白日做梦，

还可把假设写在自己文章的开头。

先插一条八卦，

Rockset富贵之后，

就在官网大声说，

现有（Current）客户就都不服务了。

天啊撸，原来美国也是：

上岸第一剑，先斩意中人。

不是说客户是上帝吗？

只要给的钱够多。

上帝也可以不要了。

看来信仰，

在OpenAI面前也崩塌了。

说回正经，

新闻快讯里细节很多，

大家自己去看，

老规矩，谭老师主要负责开玩笑，

和聊深入的。

熟悉的读者都知道，

谭老师我的调性

是“一个为什么不够，再问一个问什么，还问一个为什么？”

第一个，

OpenAI为什么要买数据仓库公司？

第二个，

这类公司很多，为什么是Rockset？

第三个，

Rockset做对了哪些事情？

回答这三个问题之前，

我来向大家展示一下，

相关公司有多少。

数据来源于Rockset官网。

万一，

有公司跳出来说，

我也是Rockset竞品。

可能Rockset不把它当竞品。

总之，竞品很多。

放心，OpenAI买的公司技术肯定不差。

而且买Rockset，

不是为了投资，

就是为了买技术。

下一步，

把技术整合进现有的体系。

所以Rockset的技术一定要足够好，

才能配得上人家的GPT。

先第一个问题：

为什么要买数据仓库公司呢？

我们先了解一件事情，

数据是AI大模型的石油，

有车多加油，这没毛病吧。

所以，也想给大模型多加数据，

从基础模型开始，

有且只两个方式，

能够给模型加油，

哦，不是，加数据：

第一，微调型训练。

第二，RAG。

RAG是啥等下解释。

既然只有两种，那么

人人都能看出来，

这两种方式非常重要，

不能凭空生出第三种来。

对普通人来说，

问答（ChatBot）能满足大部分需求，

给大模型加油（数据）,

谁的需求最迫切呢？

答案是，有很多数据的企业。

没数据，你也迫切不起来。

有数据，才能有作为。

这样，我们的聊天就进入企业级服务的讨论的范畴里了。

用脚指头都能想到，

想让中石油石化，高盛花旗，

把数据拿出来给大模型公司，

不可能，

这绝对不可能。

全部是秘密，

不是秘密也是机密，

开什么玩笑。

这时候，

要么去企业的服务器上微调模型，

数据在企业自己的服务器上，

哪里也不去。

要么就用RAG。

RAG的英文名特别高深，

检索增强生成，

好家伙，连用三个动词，

不觉得累么。

不如让我讲个简单的。

你有一个非常聪明的朋友，

可以回答任何问题。

但是，有时朋友回答可能不准确或过时，

因为只会用以前学的书本上的知识。

那好办，

让你朋友在回答问题之前，

先翻查资料。

这样，不就更准确，

更可靠了吗。

你看，讲解科技原理很简单，

看看表，不到一分钟。

我的对其工作原理的理解是，

RAG这件事的本质就是找东西。

找东西，很简单，

有点东西，

先存下来，再找。

怎么找是怎么存决定的。

这样看来，存和找可以看成一件事。

好，这点，我们按下不表。

放眼全世界，

找东西有哪几种方式？

我说的是，企业级服务里面的找东西，

个人找信息不是上谷歌，

就是上百度。

而在企业里，可以用三种方式找东西。

第一“找”，

在数据仓库（OLAP）找东西。

数据仓库（OLAP）是一种专门用于在线数据分析的数据库。

在线这件事，后面讲。

数据库有套标准化的东西，

搞AI的人特别羡慕，

那就是SQL。

不过没关系，

搞数据的人都很羡慕AI的宣传能力。

搞数据库的著名专家一年到头没有人采访，

搞AI的“名人”天天被人围着采访。

这就扯平了。

接着聊。

本质上，数据库是一种精确运算，

统计从去年可口可乐的销售额，且排序。

无论你查询多少次，

同样的查询，

同样的答案。

答案是精确的，不变的。

表总是那个表。

而其他就很难保证精确性了（近似或者模糊）。

这个等下再说。

第二“找”，

用Elasticsearch这种搜索组件找东西。

既然出场了，

就给Elasticsearch个比较商（高）务（端）的介绍。

一款开源的搜索和分析引擎，

旨在为各种规模的数据提供快速，

灵活和可扩展的搜索功能。

它被广泛用于各种应用场景。

要我说，

它特别擅长找文本信息，

也就是语义信息（semantic）。

这里有关于谭婧老师写的文章五万篇，

找500篇出来。

哗啦一下都给你找出来。

还给你排序。

谭老师我AI基础软件，AI芯片，供应链上的运筹学等等都写。

此查询将返回所有包含短语“AI芯片”或其同义词的文章。

这个，就是我说的模糊查找。

第三“找”，

在向量堆里找东西。

还搜索谭婧老师，这次向量距离是重点，

距离近的都给我搜出来，

当谭老师我变成一个向量信息，

是啥就已经不重要了，

不需要知道这是一位科技科普KOL。

主打一个找向量距离近的。

这种，本质是一个近似搜索。

这三种“找东西”的方式，

都很好。

以OpenAI的调性，

一定会说：

“经费有限才做选择，有钱全都要”。

巧了，Rockset，一石三鸟，成交。

等一下，“先谈个价钱”。

再回答第二个问题：

全世界这类产品有很多，

为什么是Rockset？

这个时候，就要夸夸Rockset了。

反正怎么夸都不会翻车，

因为OpenAI买了，

就是最大的商誉背书。

夸它的空间非常大。

你可以说什么，

前大厂员工创业，

毕竟，公司的六名高管中有四人都曾任职脸书（Facebook）。

还可以说，

创始人名校背景。

毕竟，CEO是威斯康星大学麦迪逊分校计算机专业背景，

数据库老兵。

另外，Rockset的CTO兼联创，

还有一个“殊荣”，

是大名鼎鼎的RocksDB的作者。

话不多说，Rockset好在哪？

“实时”这点，

拿出来先说，

大模型的服务是实时的，

要是Spark在那里跑一小时才出来，

开什么玩笑。

机器人呆若木鸡一小时。

去RAG里面拿信息，

等一小时，

再感谢用户的耐心。

这极不合理。

RAG是个在线服务，

这一整套都是在线服务。

再说，

这里暗藏了一个重点：

找东西这件事用什么组件？

前面说了

有三种组件可以为企业级服务找东西，

我们来复（重）习（复）一下：

一，数据仓库（OLAP），

二，Elasticsearch，

三，向量数据库。

第三个问题，

Rockset做对了哪些事情？

裉节在于，

在数据仓库（OLAP）上面扩展向量检索和语义检索并不困难，

但是，反之不行。

但是之后往往是重点。

这从另一个角度说明，

数据仓库（OLAP）的技术栈，

比单纯做向量检索，语义检索的技术栈更深，

想做好并不容易。

重要的是，这个组件是企业数字化转型最核心的点。

为什么这么说？

数字化有三件事重要，

有数，存数，用数。

得用一套扩展性把企业所有数字化的需求都满足。

巧了，这个东西用数据仓库（OLAP）能很好的完成。

更巧的是，

Rockset也是这么做的。

不仅是这么做的，

而且是数据仓库（OLAP）众多产品中，

对文本检索和向量检索支持做得最好。

这下，

能看出Rockset技术的厉害之处了吧。

毕竟，

上OpenAI的购物清单，

也不简单。

Rockset的技术路线正是从数据仓库（OLAP）技术栈，

扩展到了向量和语义搜索。

很重要的一点，

这个顺序不能错。

并且，只有向量检索和文本检索也不行。

你看，OpenAI很可能也是这么认为。

再抄一遍答案：

企业级RAG的核心,

是支持搜索召回能力的数据仓库（OLAP）。

且数据仓库（OLAP）具备更好的扩展性，

这点从70年代有BI的时候开始到现在，

一直被证明。

为什么扩展性为什么如此的重要？

数据仓库（OLAP）能够通过一套体系,

把企业所有的需求都满足。

数据仓库上层的负载变化多样，快速增长。

文本检索这浪，做得好还不够，

向量检索这波又来了，

每招都要能接招，

跟上迭代。

再问下去，

做好扩展性的根本是什么？

一是数据开放性，

二是可组装性（高端说法“架构松耦合”），

且在保证前两者的基础上，

和性能上面做很好的平衡。

也就是说，把前两者做好，

不能牺牲性能。

比如，这个车可以换引擎，

但这车不能比换不了引擎的车。

油耗多十倍。

无论是OpenAI还是另外谁，

带着需求来了，都要能被组装到基础的数据架构中去。

对OpenAI来说，

To C赚钱，To B也赚要钱，

ToB就必须在数据架构上发力，

也就是夯实数据平台基础。

这类数据平台产品也很需要积累，

比如Snowflake和Databricks就积累得足够深，足够好，

好消息是，

美国的软件生态特别好，

只要你觉得值得，

那就花钱买家好公司来。

不卖的话，

那就价格再高一点。

这件事上，说个判断，

OpenAI要好好赚B端（企业级）客户的大钱了。

为什么这么说？

这个阶段，在B端（企业级）生意里边，

企业级的RAG最核心。

如果OpenAI想落地这个东西，

它需要有一个平台或者引擎能把这一套承接起来。

既然没有选向量数据库，

OpenAI的判断就不是单纯向量数据库，

而是一个具备很好搜索能力的数据仓库（OLAP），

加上向量数据库的能力。

（有些做向量数据库的朋友，

应该不会喜欢这个观点，

不过我坚持。）

老店迎新客：向量数据库选型与押注中，没人告诉你的那些事

（完）

One More Thing

这篇文章需感谢云器科技的CTO关涛。

那不得不问一下，

关涛是谁？

让我来介绍的话，

他曾是阿里云贾扬清团队的高T，

阿里云历史上最年轻的P10，

前阿里云飞天大数据系统的负责人，

这些事我早知道，他一直不让我说，

经过我的分析，

云器科技创立之时的设计理念，

和这次收购的逻辑，

不谋而合。

《我看见了风暴：人工智能基建革命》，

作者：谭婧

亲爱的数据

关注

26
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
泼天富贵，OpenAI收购数据仓库公司，为什么？

01泼天的富贵，谁不喜欢呢。OpenAI买哪家公司，哪家公司就富贵。比如，OpenAI收购“亲爱的数据”。这种事，一般人也就只敢想想，而谭老师我，不一样。不仅可以白日做梦，还可把假设写在自己文章的开头。先插一条八卦，Rockset富贵之后，就在官网大声说，现有（Current）客户就都不服务了。天啊撸，原来美国也是：上岸第一剑，先斩意中人。不是说客户是上帝吗？只要给的钱够多。上帝也可以不要了。看来...
复制链接

扫一扫