太可研究所-CSDN博客

原创 Data 开始 S 上雕花了？Spark Native 执行引擎请求出战

如果是基于 Spark 做 OLAP、数据湖查询的场景，追求效率、性能其实有更多更好的选择，比如直接用 ClickHouse，或者 Doris、Trino 这些专职的 OLAP 数据库，甚至近两年出现的新兴的 OLAP 数据库，已经把向量化作为标配，再抱着十几年前的 Spark 技术做 OLAP，实在是没必要。据我所知，目前 Data 有几个方向还在持续创新，值得深入研究，一个是 Native 执行引擎，一个是多模态数据，再有就是向量+搜索，可能还得算上云原生，但是云原生方向的创新也已经到了瓶颈。

2024-05-19 14:44:19 386 1

原创聊聊数据领域年轻的 OG

Arrow 诞生的时间不长，但社区发展的很蓬勃，前几年步子迈得特别大各种子项目层出不穷，上文提到的 Plasma、Acero、Flight、Gandiva，甚至 parquet 的 C++ reader 也维护在了 Arrow 项目里，导致整个 Arrow 的代码仓库无比冗杂，有各种语言的 binding，还有各种子项目，有点精装小伙还没成年就已经步履蹒跚的感觉。总体而言，Arrow 从内存列式格式入手，逐步发展出包含 RPC、Dataset、计算引擎的一个完整的生态，同时社区也还在在蓬勃的发展。

2024-05-19 14:31:26 275 1

原创漫谈大数据中的资源管理

推出此类产品的目的也很明确，就是想让用户在自己的云上使用大数据套件，但也不得不说对于离线 ETL 业务来说在云上使用还挺合适的，ETL 负载很明显有潮汐特点的，一般零点之后开始，上午会把任务跑完，同时要消耗大量资源，如果固定一批机器会造成大量的闲置，而不买的话要用的时候又不够，云弹性的特点刚好能满足这个需求。对于有在线业务的公司来讲，在线的业务一定是有峰值和谷值的，离线任务更是如此，而且离线任务的灵活性更高，如果能充分利用在线业务谷时的资源把离线任务跑完，那无疑是最省成本的。

2024-04-25 00:36:03 463 2

原创盘点新生代数据库选手之 DuckDB

说实话 4 亿美金的估值已经不低了，按照现在资本对 SaaS 类产品的要求，至少要营收达到 2、3 千万美金才能匹配现在现有的估值，这个营收如果是在国内，已经是数据库创业公司们的天花板了，在海外可能还有希望。三是非常简单的安装方式和可移植性，得益于历史包袱少，第三方依赖少，对接 Python 非常方便，使用简单的 pip 命令就可以安装并且使用。四是 SQL 支持好，每家数据库都有自己的 SQL 方言，也就 PostgreSQL 的 SQL 是最标准的，其他的要么加了很多私货，要么是很多函数、语法不支持。

2024-04-18 22:41:38 559 1

原创如何搭建一套大数据系统？

如果想把数据开放给更多的用户使用，就要支持SQL，也就是 OLAP 的建设。举个例子，例如公司刚成立一两年，业务还在野蛮生长的阶段，同时业务增长迅猛可以预见的一两年内还有十倍以上的增长，并且数据分析的需求已经很旺盛了，这时候选择先使用云厂商的产品是一个能立竿见影的选择。指标层对于用来讲是对数据做了进一步的抽象，最终的用户只能看到一个个的指标，而不是某张表中的某个字段，使用方式也从使用 SQL 变成了可视化、交互式的指标，使用方也从分析师扩展到了一线业务用户，可以试产品经理、销售、售前、运营等一线角色。

2024-04-11 23:59:11 658 1

原创我为什么不看好 Spark 背后的编程语言——Scala

这几年随着数据库玩家纷纷进入大数据领域，以及 JVM 生态在性能、资源利用率和 GC 方面的劣势，C++ 和 Rust 成为了这个方向的宠儿，执行引擎方面 Databricks 没有开源的 Photon，开源领域的 Arrow，以及流式计算的 RedPanda、 RisingWave 都在冲击着上一代的技术，老牌技术的生态优势短时间内还在，但中年危机已经慢慢袭来。写到这儿，不难看出，Scala 的优势是把面向对象的编程生态融合了函数式编程的理念，既能用到生态的力量，又能在多核、并发场景下发挥函数式的优势。

2024-03-27 22:26:21 835

原创 ColBERT 杀死向量数据库？

此外，向量 kNN 检索还有比较大的问题，是缺乏可解释性，因为向量是通过 Embedding 模型生成的，向量本身并不可读，向量的质量和模型息息相关，通过相似度匹配查出来的结果也是近似查询，所以查询结果很难解释。另外，ColBERT 的能力就兼具了语义检索和关键词检索的能力，所以完全通过它搜索出来的结果完全可省掉 Re-Ranking 这一步，同时只要进行单路的召回即可，无需向量数据库+关键词检索多路召回，可以大大简化系统架构，也就是文章最开头复杂的架构图简化成一两步。

2024-03-20 21:13:02 365 1

原创程序员重生之「2024 年我在数据库赛道做创业者」

其实，多一类职能角色就会让一个事情的责任多分散一次，本来服务一个客户理想情况下 1-2 人就能完成，如果销售、售前、产品、研发、售后都拉进来最少就要 5 个人，届时公司内部不同的部门之间就有无尽的扯皮，外部客户也会很迷惑。所以理想的情况是尽量减少职能，公司人少的时候责任越集中效率效率高，因此，你果断砍掉了售前、售后、UED、测试、Devops 等角色，考虑到做 SaaS 产品有很多合规、支付、税务、用户体验方面的问题，再招1-2个技术出身的产品经理最佳。然而一把火过后，留给市场的不仅是繁荣，还有大量泡沫。

2024-03-15 00:09:42 317 1

原创 Data 领域分工及避坑指南，看这一篇就够了！

不过工具彼此之间协同起来往往会有些别扭，例如，每个工具都会有自己的权限系统，有自己的多租户，也都会有自己的一套表、数据集、任务、自定义脚本的概念，如果全靠数据工程师手工一个个的维护，肯定不可持续。目前，市场上数据类的研发工程师相对短缺，而且门槛也比较高，所以打工人的薪资会更高。这几种不同类型的工程师都各有特点，例如研发工程师，他们通常对自己研发的产品很熟悉，顶多对竞品、上下游产品也很熟，但对整个数据体系会缺乏认知，会在自己的方向上持续深耕，职业生涯比较长，直到自己方向的产品彻底被历史淘汰。

2024-03-06 20:30:40 444 1

原创大数据计算技术秘史（下）

就像 Spark 什么都能干一样，LakeHouse 的概念里融合了 Data Warehouse 和 Data Lake，可以接任意类型的负载，例如基于 SQL 接口的在交互式查询、使用 Java/Python/SQL 的数据处理任务、面向 AI 场景的数据应用等，都在 LakeHouse 里完成。总体来看，从大方向来看，AI 包括数据清洗、训练、推理，需要处理结构化、非结构化数据，需要用到 GPU、CPU，而面向结构化、半结构化的而设计的计算引擎也只能做到数据清洗这一步。

2024-02-28 15:30:00 371

原创大数据计算技术秘史（上篇）

在之前的文章中，我们粗略地回顾了大数据领域的存储技术。在解决了「数据怎么存」之后，下一步就是解决「数据怎么用」的问题。其实在大数据技术兴起之前，对于用户来讲并没有存储和计算的区分，都是用一套数据库或数据仓库的产品来解决问题。而在数据量爆炸性增长后，情况就变得不一样了。单机系统无法存储如此之多的数据，先是过渡到了分库分表这类伪分布式技术，又到了 Hadoop 时代基于分布式文件系统的方案，后来又到了数据库基于一致性协议的分布式架构，最终演进为现在的存算分离的架构。

2024-02-21 22:14:16 1711

原创当面试官抛出 LSM-tree，不知阁下该如何应对？

数据库行业在研发面试阶段经常会被问到的一项技术是什么？答案大概率是 LSM-tree。对于数据库领域的研发同学来讲，它不仅是面试必备的问题，更是各数据库不可或缺的一项技术。不夸张地说，在近十年诞生的数据库都在使用 LSM-tree 数据结构。今天我们就来聊上一聊，除了介绍 LSM-tree 的原理、优缺点以外，我还会列举它的典型实现，帮大家理解 LSM-tree 受各大数据库青睐的原因。

2024-02-01 21:04:53 843 1

原创没两把刷子，别碰向量数据库

如果一定要在 2023 年的数据库赛道里选出一个网红，那么一定非向量数据库莫属。2022 年，经历了 OLAP、IoT 的捶打后，我选择加入了向量数据库的赛道。遥想当时，向量数据库还是一个非常小众的赛道，朴素的直觉告诉我，Database for AI 的场景一定有前景。不过，现实却是直到 2022 年下半年，我们还是要和广大开发者布道——什么是向量数据库、它能解决什么问题。

2024-01-24 21:14:01 487

原创李奎？李鬼？揭秘真假云原生数据库

在我的数据库开发职业生涯中，云原生技术绝对是让人“又爱又恨”的一个存在。爱的原因自不必说，“恨”的原因却各有不同。单说真假云原生数据库这一点，就有不少人中招。市场上不乏“李鬼们”打着“云原生数据库”的旗号招摇过市。为什么会出现这种现象？这恐怕要从云原生技术说起。云原生技术的概念出现在 2010 年之前，基本与 AWS 的历史相当。云原生数据库的时间就短多了，也就不到 10 年，所以真正的云原生数据库都还处于一个比较早期的阶段，盖棺定论为时尚早，因此大家对于云原生数据库的理解也可能“千人千面”。

2024-01-17 20:02:30 1645

原创还在做 Hadoop 生态？那我祝你一帆风顺

上回说到，我决定走出大数据的围城，用另一种视角审视与复盘行业。文章发出后收到很多读者的反馈，其中呼声比较高的一条是希望我能聊聊大数据的行业前景与思考。针对这个问题，后面我会分享一些自己的经验与思考，同时，也会邀请来自各个大厂及正在相关方向创业的朋友做客（techinstitute），相信届时可以解答各位的一些困惑。言归正传，在上篇文章中，我带领大家梳理了存储的定义、发展历程及分布式文件系统/对象存储技术。今天我将继续分享存储的其他关键技术——存储格式、数据库/数据仓库、数据湖，忘记前文的朋友可点击复习。

2024-01-10 21:41:57 1530 1

原创 2024 年，一个大数据从业者决定……

2024 年，一个大数据从业者决定走出围城。不过，在正式聊【走出围城】前，先谈谈【走入】的事情。我读书时的专业是xx，毕业后顺理成章地做了几年业务开发。没过多久我就发现，随着业务的数据规模越来越大，在存储、分析方面遇到的挑战也越来越大。而当时，公司的架构师一通瞎搞，净选一些非主流的方案，外面找的所谓的“专家”也不咋靠谱，满嘴跑火车……我就萌生了“去外面看看正儿八经大数据怎么搞”的想法。当时市面上有两家做的不错的开源、数据方向的公司：A 和 B，因为 B 离家更近一些，我果断放弃了 A。

2024-01-03 21:31:02 831 1

2301_77194443的博客