开一个系列,分别介绍一下最近十年新冒出来的数据库。分别从产品要解决的问题,技术路线,商业化角度分析一下。
这周太可研究所(techinstitute)分享一个嵌入式 OLAP 数据库 -- DuckDB。
## Vol.1
什么是嵌入式数据库?通俗来说就是可以嵌入到应用程序内部,无需启动外部 server 的数据库。最知名的例子就是 SQLite,做过 Android、iOS 开发的同学都很熟悉它,如果要使用数据库,默认选择就是 SQLite。如果说 SQLite 是主打 OLTP 场景,那么 DuckDB 就是要解决嵌入式场景下的 OLAP 问题。
说到 OLAP + 嵌入式场景,不难想到它的应用场景在两处,一是作为查询引擎嵌入到某些产品里,二是在单机环境里做快速的分析实验。第二个场景的用户就是数据分析师或者数据科学家,而且竞品还是挺多,pandas、arrow 等 library,以及可以单机跑的 ClickHouse。第一个使用场景前景就很广阔了,毕竟 SQLite 是全世界装机量最大的数据库(每个 Android、iOS 设备上都有),虽然 OLAP 的需求远小于 OLTP,但哪怕百分之一也是很大的规模。
## Vol.2
从技术视角上看 DuckDB 的有几个特点:
一是用 C++ 开发,几乎没有任何第三方依赖,甚至连 parquet reader 都是自己写的。可以非常方便地编译成各类产物,既可以编译成二进制可执行文件,也可以编译成 library 方便其他产品集成,多语言集成也很容易,甚至还能编译成 wasm 在浏览器里执行。
二是使用了 SIMD 等技术,可以实现高性能的执行。不过话又说回来,现在还不支持 SIMD 的 OLAP 数据库已经快被淘汰干净了。
三是非常简单的安装方式和可移植性,得益于历史包袱少,第三方依赖少,对接 Python 非常方便,使用简单的 pip 命令就可以安装并且使用。使用 DuckDB 就像 SQLite 一样,只有少量几个存储文件,把文件拷贝到其他机器上,装好 DuckDB 之后就可以直接用起来。
```bash
pip install duckdb==0.6.1
```
四是 SQL 支持好,每家数据库都有自己的 SQL 方言,也就 PostgreSQL 的 SQL 是最标准的,其他的要么加了很多私货,要么是很多函数、语法不支持。DuckDB 的 SQL 支持很丰富,至少是嵌入式数据库里是最好的。
目前DuckDB最新版本是0.9.2,看上去距离发布1.0已经不远了。未来DuckDB的roadmap主要集中在SQL语法补全、性能优化、代码架构优化上。
## Vol.3
DuckDB 还很年轻,2019 年才诞生,还没有特别清晰的商业化路线。背后的商业化公司 MotherDuck 已经融到了 B 轮,融了 5 千万美金,估值 4 亿美金。
MotherDuck 早期也只是提供一些 DuckDB 的技术支持、咨询类的服务。现在MotherDuck 也提供了云 Serverless 服务,系统通过云挣钱,但是作者实在没看出来相比于其他云产品的优势在哪里。
说实话 4 亿美金的估值已经不低了,按照现在资本对 SaaS 类产品的要求,至少要营收达到 2、3 千万美金才能匹配现在现有的估值,这个营收如果是在国内,已经是数据库创业公司们的天花板了,在海外可能还有希望。如果 MotherDuck 没有更清晰的商业化数字的话,估计下一轮会比较困难,不过好在看官网介绍,MotherDuck 的人手不多,短期内不会太缺钱,希望他们能把产品越做越好吧。
DuckDB 是一个值得持续关注的新兴技术,在数据分析赛道的定位还是挺清晰的。再考虑到未来和生态高度集成,影响力肯定会在上升一个台阶。
## 引用:
- https://duckdb.org/why_duckdb.html
- https://hightouch.com/blog/duckdb
- https://motherduck.com/
- https://www.prnewswire.com/news-releases/motherduck-raises-52-5-million-series-b-funding-as-duckdb-adoption-soars-301932741.htmlv