自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Data 开始 S 上雕花了?Spark Native 执行引擎请求出战

如果是基于 Spark 做 OLAP、数据湖查询的场景,追求效率、性能其实有更多更好的选择,比如直接用 ClickHouse,或者 Doris、Trino 这些专职的 OLAP 数据库,甚至近两年出现的新兴的 OLAP 数据库,已经把向量化作为标配,再抱着十几年前的 Spark 技术做 OLAP,实在是没必要。据我所知,目前 Data 有几个方向还在持续创新,值得深入研究,一个是 Native 执行引擎,一个是多模态数据,再有就是向量+搜索,可能还得算上云原生,但是云原生方向的创新也已经到了瓶颈。

2024-05-19 14:44:19 386 1

原创 聊聊数据领域年轻的 OG

Arrow 诞生的时间不长,但社区发展的很蓬勃,前几年步子迈得特别大各种子项目层出不穷,上文提到的 Plasma、Acero、Flight、Gandiva,甚至 parquet 的 C++ reader 也维护在了 Arrow 项目里,导致整个 Arrow 的代码仓库无比冗杂,有各种语言的 binding,还有各种子项目,有点精装小伙还没成年就已经步履蹒跚的感觉。总体而言,Arrow 从内存列式格式入手,逐步发展出包含 RPC、Dataset、计算引擎的一个完整的生态,同时社区也还在在蓬勃的发展。

2024-05-19 14:31:26 275 1

原创 漫谈大数据中的资源管理

推出此类产品的目的也很明确,就是想让用户在自己的云上使用大数据套件,但也不得不说对于离线 ETL 业务来说在云上使用还挺合适的,ETL 负载很明显有潮汐特点的,一般零点之后开始,上午会把任务跑完,同时要消耗大量资源,如果固定一批机器会造成大量的闲置,而不买的话要用的时候又不够,云弹性的特点刚好能满足这个需求。对于有在线业务的公司来讲,在线的业务一定是有峰值和谷值的,离线任务更是如此,而且离线任务的灵活性更高,如果能充分利用在线业务谷时的资源把离线任务跑完,那无疑是最省成本的。

2024-04-25 00:36:03 463 2

原创 盘点新生代数据库选手之 DuckDB

说实话 4 亿美金的估值已经不低了,按照现在资本对 SaaS 类产品的要求,至少要营收达到 2、3 千万美金才能匹配现在现有的估值,这个营收如果是在国内,已经是数据库创业公司们的天花板了,在海外可能还有希望。三是非常简单的安装方式和可移植性,得益于历史包袱少,第三方依赖少,对接 Python 非常方便,使用简单的 pip 命令就可以安装并且使用。四是 SQL 支持好,每家数据库都有自己的 SQL 方言,也就 PostgreSQL 的 SQL 是最标准的,其他的要么加了很多私货,要么是很多函数、语法不支持。

2024-04-18 22:41:38 559 1

原创 如何搭建一套大数据系统?

如果想把数据开放给更多的用户使用,就要支持SQL,也就是 OLAP 的建设。举个例子,例如公司刚成立一两年,业务还在野蛮生长的阶段,同时业务增长迅猛可以预见的一两年内还有十倍以上的增长,并且数据分析的需求已经很旺盛了,这时候选择先使用云厂商的产品是一个能立竿见影的选择。指标层对于用来讲是对数据做了进一步的抽象,最终的用户只能看到一个个的指标,而不是某张表中的某个字段,使用方式也从使用 SQL 变成了可视化、交互式的指标,使用方也从分析师扩展到了一线业务用户,可以试产品经理、销售、售前、运营等一线角色。

2024-04-11 23:59:11 658 1

原创 我为什么不看好 Spark 背后的编程语言——Scala

这几年随着数据库玩家纷纷进入大数据领域,以及 JVM 生态在性能、资源利用率和 GC 方面的劣势,C++ 和 Rust 成为了这个方向的宠儿,执行引擎方面 Databricks 没有开源的 Photon,开源领域的 Arrow,以及流式计算的 RedPanda、 RisingWave 都在冲击着上一代的技术,老牌技术的生态优势短时间内还在,但中年危机已经慢慢袭来。写到这儿,不难看出,Scala 的优势是把面向对象的编程生态融合了函数式编程的理念,既能用到生态的力量,又能在多核、并发场景下发挥函数式的优势。

2024-03-27 22:26:21 835

原创 ColBERT 杀死向量数据库?

此外,向量 kNN 检索还有比较大的问题,是缺乏可解释性,因为向量是通过 Embedding 模型生成的,向量本身并不可读,向量的质量和模型息息相关,通过相似度匹配查出来的结果也是近似查询,所以查询结果很难解释。另外,ColBERT 的能力就兼具了语义检索和关键词检索的能力,所以完全通过它搜索出来的结果完全可省掉 Re-Ranking 这一步,同时只要进行单路的召回即可,无需向量数据库+关键词检索多路召回,可以大大简化系统架构,也就是文章最开头复杂的架构图简化成一两步。

2024-03-20 21:13:02 365 1

原创 程序员重生之 「2024 年我在数据库赛道做创业者」

其实,多一类职能角色就会让一个事情的责任多分散一次,本来服务一个客户理想情况下 1-2 人就能完成,如果销售、售前、产品、研发、售后都拉进来最少就要 5 个人,届时公司内部不同的部门之间就有无尽的扯皮,外部客户也会很迷惑。所以理想的情况是尽量减少职能,公司人少的时候责任越集中效率效率高,因此,你果断砍掉了售前、售后、UED、测试、Devops 等角色,考虑到做 SaaS 产品有很多合规、支付、税务、用户体验方面的问题,再招1-2个技术出身的产品经理最佳。然而一把火过后,留给市场的不仅是繁荣,还有大量泡沫。

2024-03-15 00:09:42 317 1

原创 Data 领域分工及避坑指南,看这一篇就够了!

不过工具彼此之间协同起来往往会有些别扭,例如,每个工具都会有自己的权限系统,有自己的多租户,也都会有自己的一套表、数据集、任务、自定义脚本的概念,如果全靠数据工程师手工一个个的维护,肯定不可持续。目前,市场上数据类的研发工程师相对短缺,而且门槛也比较高,所以打工人的薪资会更高。这几种不同类型的工程师都各有特点,例如研发工程师,他们通常对自己研发的产品很熟悉,顶多对竞品、上下游产品也很熟,但对整个数据体系会缺乏认知,会在自己的方向上持续深耕,职业生涯比较长,直到自己方向的产品彻底被历史淘汰。

2024-03-06 20:30:40 444 1

原创 大数据计算技术秘史(下)

就像 Spark 什么都能干一样,LakeHouse 的概念里融合了 Data Warehouse 和 Data Lake,可以接任意类型的负载,例如基于 SQL 接口的在交互式查询、使用 Java/Python/SQL 的数据处理任务、面向 AI 场景的数据应用等,都在 LakeHouse 里完成。总体来看,从大方向来看,AI 包括数据清洗、训练、推理,需要处理结构化、非结构化数据,需要用到 GPU、CPU,而面向结构化、半结构化的而设计的计算引擎也只能做到数据清洗这一步。

2024-02-28 15:30:00 371

原创 大数据计算技术秘史(上篇)

在之前的文章中,我们粗略地回顾了大数据领域的存储技术。在解决了「数据怎么存」之后,下一步就是解决「数据怎么用」的问题。其实在大数据技术兴起之前,对于用户来讲并没有存储和计算的区分,都是用一套数据库或数据仓库的产品来解决问题。而在数据量爆炸性增长后,情况就变得不一样了。单机系统无法存储如此之多的数据,先是过渡到了分库分表这类伪分布式技术,又到了 Hadoop 时代基于分布式文件系统的方案,后来又到了数据库基于一致性协议的分布式架构,最终演进为现在的存算分离的架构。

2024-02-21 22:14:16 1711

原创 当面试官抛出 LSM-tree,不知阁下该如何应对?

数据库行业在研发面试阶段经常会被问到的一项技术是什么?答案大概率是 LSM-tree。对于数据库领域的研发同学来讲,它不仅是面试必备的问题,更是各数据库不可或缺的一项技术。不夸张地说,在近十年诞生的数据库都在使用 LSM-tree 数据结构。今天我们就来聊上一聊,除了介绍 LSM-tree 的原理、优缺点以外,我还会列举它的典型实现,帮大家理解 LSM-tree 受各大数据库青睐的原因。

2024-02-01 21:04:53 843 1

原创 没两把刷子,别碰向量数据库

如果一定要在 2023 年的数据库赛道里选出一个网红,那么一定非向量数据库莫属。2022 年,经历了 OLAP、IoT 的捶打后,我选择加入了向量数据库的赛道。遥想当时,向量数据库还是一个非常小众的赛道,朴素的直觉告诉我,Database for AI 的场景一定有前景。不过,现实却是直到 2022 年下半年,我们还是要和广大开发者布道——什么是向量数据库、它能解决什么问题。

2024-01-24 21:14:01 487

原创 李奎?李鬼?揭秘真假云原生数据库

在我的数据库开发职业生涯中,云原生技术绝对是让人“又爱又恨”的一个存在。爱的原因自不必说,“恨”的原因却各有不同。单说真假云原生数据库这一点,就有不少人中招。市场上不乏“李鬼们”打着“云原生数据库”的旗号招摇过市。为什么会出现这种现象?这恐怕要从云原生技术说起。云原生技术的概念出现在 2010 年之前,基本与 AWS 的历史相当。云原生数据库的时间就短多了,也就不到 10 年,所以真正的云原生数据库都还处于一个比较早期的阶段,盖棺定论为时尚早,因此大家对于云原生数据库的理解也可能“千人千面”。

2024-01-17 20:02:30 1645

原创 还在做 Hadoop 生态?那我祝你一帆风顺

上回说到,我决定走出大数据的围城,用另一种视角审视与复盘行业。文章发出后收到很多读者的反馈,其中呼声比较高的一条是希望我能聊聊大数据的行业前景与思考。针对这个问题,后面我会分享一些自己的经验与思考,同时,也会邀请来自各个大厂及正在相关方向创业的朋友做客(techinstitute),相信届时可以解答各位的一些困惑。言归正传,在上篇文章中,我带领大家梳理了存储的定义、发展历程及分布式文件系统/对象存储技术。今天我将继续分享存储的其他关键技术——存储格式、数据库/数据仓库、数据湖,忘记前文的朋友可点击复习。

2024-01-10 21:41:57 1530 1

原创 2024 年,一个大数据从业者决定……

2024 年,一个大数据从业者决定走出围城。不过,在正式聊【走出围城】前,先谈谈【走入】的事情。我读书时的专业是xx,毕业后顺理成章地做了几年业务开发。没过多久我就发现,随着业务的数据规模越来越大,在存储、分析方面遇到的挑战也越来越大。而当时,公司的架构师一通瞎搞,净选一些非主流的方案,外面找的所谓的“专家”也不咋靠谱,满嘴跑火车……我就萌生了“去外面看看正儿八经大数据怎么搞”的想法。当时市面上有两家做的不错的开源、数据方向的公司:A 和 B,因为 B 离家更近一些,我果断放弃了 A。

2024-01-03 21:31:02 831 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除