分布式数据库
文章平均质量分 77
何小朝
北京大学博士后,大型互联网公司大数据智能总监,第一界中国软件业十大杰出青年候选人,曾任重点大学计算机教师,20年以上人工智能算法应用、大数据、数据架构与中台等领域的实际项目开发、设计规划与授课经验,出版技术专著三部,美国工程索引IEEE EI论文6篇,自主软件版权一项,美国软件专利一项
展开
-
再谈因果性与不确定性
听说耶鲁大学最新的研究与试验成果证明了:量子力学的不确定性实际也有规律可循,只是因为其速度太快,接近“普朗克尺度”,很难被感受到而已。先不论这个试验成果是否真的对量子力学基础理念有这么大的颠覆作用,这里想借机再讨论一下因果性与不确定性。记得最早的一本大数据书籍,给人们带来了数据分析领域新的观点:大数据的根本特征是不遵循因果性。意思就是说,采用大数据思路解决问题,不需要考虑因果,可能用大数据得到的结论表面上看与输入或者其它因素并没有明显的、可理解的关系,但大数据这么说了,那就是这样,即:让大数据自己说原创 2022-03-06 23:19:20 · 2082 阅读 · 0 评论 -
从单点到分布式的哲学启蒙
1. 引子今天看到一篇技术文章,讲到从mysql迁移到tidb,为避免热点问题,将auto_increment自增ID主键改变为预分片RowID的技巧,从而能充分利用分布式资源的优势。这表面看是一个应对小问题的小技巧,但如果深入探讨,却可以引发从单点迁移到分布式,包括数据与应用迁移的方法论思考。2. 平移与重构的思考随着数字化转型的不断深入,在线数据量需求的增加,以及场景化带来的业务敏态进化趋势,近年来,从单点技术体系迁移到分布式技术体系,已经形成不可逆转的热潮。这其中涉及到很多具体..原创 2022-02-12 19:48:02 · 1491 阅读 · 0 评论 -
从云原生数据库服务到新型“数联网”基础设施
1. 新型“数联网”基础设施2020年4月,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》(下称《2020数据要素意见》)发布以来,数据要素的市场价值日益受到重视。同时,长期的实践证明,数据要素的威力,大多数情况下源于对多源数据的融合分析,单一组织靠自身积累往往难以聚集足够价值的数据,因此,只有通过数据跨域流通与共享开放才能真正发挥大数据的应用价值。如银行、保险、政府、电商等等行行业业,已经有了强烈、广泛的数据跨域集成与融合的市场需求。另一方面,随着数字化的深入发展,信息技术已经开..原创 2022-02-05 17:39:13 · 1724 阅读 · 0 评论 -
Paxos协议与分布式事务的通俗解释
Paxos协议与分布式事务都有两个阶段,很容易被人所混淆。实际上,这两者在使用中有关联,但场景却有所不同。大部分介绍材料,都过于学术化,描述过于复杂,让大多数人看了后似懂非懂,导致现实中很多同学对这两者本身,以及两者的区别,也一直处于似懂非懂的状态。本小文试图用最简单、最简短的语言,对这两者及区分进行说明。一、先看Paxos协议,也可以称为一种算法,主要用于分布式节点之间关于某项决策保证一致性,决策的原则就是少数服从多数。跳过复杂乏味的算法过程描述,直接举例说明:要解决的问题:一群朋友决定一原创 2022-02-03 20:27:03 · 554 阅读 · 0 评论 -
在CentOS上进行TiDB编译分享
这里对TiDB的编译过程中的几个小点进行分享。虽然理论上讲,从github上下载的源码解压后就能实现编译,但实际操作过程中,由于各种各样的原因,还是有可能出错,本文对实操过程中的几个问题及解决方案进行分享。本文用的环境是CentOS 7.4环境准备(1)golang编译环境golang的编译环境,很多文章上都建议直接用yum安装,如下:yum install golang -y这样是可以的,但是要注意所安装golang的版本,跟所配置的yum源有关,一般情况下,不是最新版本原创 2022-01-25 00:00:08 · 872 阅读 · 0 评论 -
关于HTAP与HSAP
交易分析混合负载HTAP方兴未艾时,同时,还有一个新的概念在业界流转,即HSAP,Hybrid Serving & Analytical processing 服务分析混合负载。1. 概念在讨论HSAP之前,首先需要了解其概念中对服务与分析的区分。相当多从应用角度对数据处理分类的划分,大致分为Transaction交易与Analysis分析两大类,一类位于企业数据架构的上游用于生产数据,一类位于企业数据架构的下游用于数据价值的利用。而HSAP则对位于下游的数据价值利用进行了进一步的区分:原创 2022-01-16 17:06:37 · 4234 阅读 · 0 评论 -
论分布式数据库架构的“存”与“算”
在云计算基础设施IaaS服务中,“存”与“算”的分界是清晰的,客户会分别为“存”与“算”按需消费。不只是专门的存储服务如S3、对象存储、块存储、NAS等,即使是在最基本的虚拟机服务ECS上,“存”也需要由消费者进行选择,而选择的对象是云盘,即位置对用户透明,不需要消费者关心是否在计算节点的本地:其实连计算节点本身位于何处也是无需关心,又何谈本地。随着云计算服务的持续发展,“存”与“算”的界限,无论是从消费模式上,还是从技术上,都呈现出越来越清晰的趋势。而在PaaS层的数据库服务中,则出现两种情况。一种是原创 2021-12-25 13:08:11 · 1407 阅读 · 0 评论 -
交易数据库发展趋势:从账本到发动机
相当一般时间以来,无论有多少脍炙人口的技术进步,包括分布式架构,内存缓存,高并发,多地多中心多活等,交易数据库的核心目标一直都是存证记账。长期以来在该领域所追求的,就是无论我的业务量有多大,业务增长有多快,数据库都能及时的、准确地、可靠地将账记下来。对企业来讲,数据库的价值就是在任何情况下都能保证一个存证的账本。而近年来,数据库领域新的架构设计与技术进步,即HTAP(交易分析混合负载),却给了交易数据库在企业运营中新的定位与职能,那就是,企业业务运营的“发动机”。也就是说,过去,交易数据库的存在只是为了原创 2021-12-15 16:12:34 · 2208 阅读 · 1 评论 -
谈中国分布式数据库商业之路:OSM与DB-Inside
问题的提出中国的分布式数据库商业道路该怎么走?云原生运营还是产品式覆盖?这是一个需要讨论的问题,特别是对于中国市场来讲。云原生运营显然是国际范围内数据库服务的先进模式,这无论是从科技发展趋势上,还是从国际实践上,都已经得到证实。但在中国,由于超过8成的2B数据库市场都被政府与大中型国资所占据,而分布式数据库的主体市场正是2B,不是长尾,从而导致数据库厂商实施云原生运营的商业环境差。可以假设DB Cloud数据库自运营的模式在中国相当长时间内条件并不具备。那么,以市场占有率为目标的产品化模式又如何原创 2021-12-11 20:51:05 · 1219 阅读 · 0 评论 -
浅谈云原生数据库与跨域安全计算
云原生数据库,是支撑现代数据服务的主体设施,它生于云上,长于云上,对外形成按需获取的DBCloud形态,使用者无需关心数据计算与存储的具体细节,无需为部署、运维、扩缩等工作付出精力,无需对数据计算的模态(AP,TP,流,图等)做出额外的规划与设计,无需区分所选择云计算基础设施IaaS的特性与区别,只需要向云原生数据库DBCloud的运营者申请使用相应的服务即可,这是现代数据库技术与服务发展的必然方向。毫无疑问,在不久的将来,全球越来越多的数据服务将在云上,包括多云、跨云的环境中以平台化的方式实现。由于云计算原创 2021-11-29 16:14:17 · 1415 阅读 · 0 评论 -
“敏态业务”新说
“敏态”这个词,是较新流行的关于传统业务互联网化的描述,而其背后主要想表达的意思大多被理解为业务可随时无感扩缩,以适应在时间和空间两个维度上都无处不在的、碎片化的、精细化的新一代业务数字化转型的要求,而在技术上也大多被映射为微服务化的应用与Scalable SQL的数据库。这里认为,“敏态业务”一词,除了上述“业务可随时无感扩缩”一个层面的解释外,还应该附加另一层的业务价值——“即时智能决策”。“即时智能决策”指可以在最新、最近的业务交易基础上,随时做出智能的“业务决策”,这也是新一代业务数字化转型必然原创 2021-10-29 13:00:33 · 3187 阅读 · 0 评论 -
再谈HTAP---论操作分析化与分析操作化
HTAP应该怎样来描述?这需要进行更加深入的讨论与抽象。交易的同时还能做些分析的分布式数据库也有很多,混合负载的提法其实也由来已久,并且都偏向于技术层面,缺乏更有业务特性的、更具代表性的表达。如果将HTAP定位为一种新兴的、有时代意义的架构与技术,那显然不能停留在这样的理解上。假若依据HTAP需要带来的IT架构转型(即“分析上移、数据普惠”)目标,以及重点的应用场景类别(即“分析内嵌的应用”与“数据服务超市”)来反向推导,则可以对HTAP做如下描述:HTAP是操作(Operationalizatio原创 2021-09-08 00:01:50 · 237 阅读 · 1 评论 -
HTAP驱动现代银行IT架构转型之路
HTAP作为一种新兴技术架构与能力,不仅可以带来某单一系统的功能与性能提升,更重要的是会驱动企业IT架构面向现代业务目标的整体转型升级。本文以典型银行IT架构为例,对HTAP驱动ITSP、应用架构、数据架构、技术架构转型升级,乃至面向新数字时代的业务能力提升赋能进行分析与介绍。1. HTAP与银行ITSP规划---“分析上移,数据普惠”HTAP首先带来的,是驱动从服务化、云计算与大数据时代以来,作为指导银行新一代IT架构各层级规划的已有高阶蓝图策略及组件布局进行调整。如下图1是典型的银行新一原创 2021-08-14 19:05:54 · 341 阅读 · 0 评论 -
HTAP数据库及应用场景简析
HTAP数据库,即交易分析混合负载型DB,已经成为一种流行的新型数据库。不仅概念很火,并且也在逐渐成为除OLTP、OLAP之外,越来越多数据库用户新的选型规范。然而,同时又存在一些现象:一是一夜之间,所有的数据库都变成了HTAP数据库;二是除了“能同时承载交易与分析SQL”这一极易模糊的理解之外,基本没有清晰明确的界定;自然而然,对HTAP的应用场景,也是八仙过海,各式各样,并不清晰的。这些,都导致HTAP有成为一种噱头的趋势。1. HTAP的界定这里认为,HTAP既然要成为一种新的标准与规范,原创 2021-08-12 23:37:47 · 3260 阅读 · 0 评论 -
论数据服务平台化的存在形态
数据服务平台化的本意是指对数据需求(包括交易、加工、分析等)用户来讲,其满足需求的方式是向“平台”提出请求即可,而不需要关心请求的具体实现过程。由于数据库是实现数据服务的核心主体设施,因此,从一定含义上来讲,它相当程度上就是云计算PaaS层服务DBaaS的代名词,也可以是数据库产品服务商对其云原生业务发展战略的高度概括。本文对数据服务平台化的讨论限制在数据库服务范畴之内。1. 问题的提出一般意义上来讲,人们对数据服务平台化作如是理解:未来IT服务的主体将由平台(即云)来承担,世界的IT基础设施将是N原创 2021-07-27 00:15:49 · 357 阅读 · 0 评论 -
NewSQL分布式数据库发展策略讨论
本文对新一代NewSQL分布式数据库发展策略中的普遍困扰进行讨论,试图厘清云原生(Cloud Native)与本地部署(On Premise)、HTAP进展方向、分布式与单机需求等分布式数据库商业与技术发展中难以决策的问题。1. 困扰分布式NewSQL数据库近年来蓬勃兴起,其原因显而易见:切中了业务与数据量不断增长的用户对关系型数据库RDBMS需求,这在传统RDBMS到大数据的发展阶段中,有相当一段时间是空白。同时,随着互联网技术的不断发展与普及,用云计算模式满足IT需求似乎已经成为未来社会产业原创 2021-07-19 00:11:42 · 3772 阅读 · 0 评论 -
分布式数据库TiDB应用分析
本文基于TiDB技术架构与功能,以及已有实践,对分布式数据库TiDB的应用场景、发展定位及相关问题进行研究分析与探讨,关于TiDB的架构与组件网上已经有很多材料,本文中除了应用探讨中需要的描述外,不对此做专门系统性阐述。1. 问题的提出TiDB是近年来兴起的新一代云原生强一致NewSQL分布式关系型数据库,简单讲,就是:又能分布式、又能强一致、又是标准SQL驱动的RDBMS。这几个特性在传统关系数据库受到挑战,而新兴的分布式大数据技术栈又多属NoSQL,无法满足ACID强一致交易的关系型SQL数原创 2021-07-11 22:25:41 · 788 阅读 · 0 评论 -
关于NewSQL数据库对CAP的再解释
关于CAP的讨论已经很多,包括作者的另一篇文章“对CAP的初步解释”,基本已经即定思维的解释就是:分布式系统必须遵循CAP,一个分布式系统的设计只能同时满足其中两个,不可能同时满足;传统关系数据库选择A与C,代表了互联网新兴技术的NoSQL数据库则选择A与P(或者C与P,虽然这种情况其实需要详细讨论)。但是,近年来,新兴的NewSQL数据库(TiDB或者OceanBase),则是一种在分布式环境下,保证的ACID强事务特征的强一致性数据库,并且很显然,它同时也满足的高可用性与优秀的分区可容忍性(很好的可原创 2021-06-12 22:04:04 · 258 阅读 · 1 评论 -
对CAP的初步解释
CAP理论是Eric Brewer教授在20世纪初提出来的,后来,经Seth Gilbert 和 Nancy lynch两人证明是正确的。我们知道,CAP代表了Consistency一致性,Availability可用性,Tolerance of network Partition分区容忍性,其代表的含义并不复杂,就是说:一个分布式系统不可能同时满足一致性,可用性和分区容忍性这三个需求,最多只能同时满足两个。要注意的是,我们这里都是讲分布式系统的,也就是说,根据CAP理论,要拿NoSQL数据库与关系数据库.原创 2021-06-12 21:23:36 · 220 阅读 · 1 评论 -
数据及其服务——云计算的技术核心
什么是云计算?云计算到底是商业概念,还是技术概念?云计算有没有一个核心问题?如果有,这个核心是什么?将业务搬上互联网——企业家心中的云计算虽然云计算的概念最先源于技术,但越来越多的人已经认同,今天我们谈到的云计算,实际上更多的是指一种商业模式,即通过网络,将各种软硬件资源以服务的形式提供给客户。当然,赚钱的模式自然是IT行业最理想的“按量计费”。按说,上面这个解释应该是没错的。但是我相信,那些长年服务于某个行业,能紧紧抓住客户需求,并对商业前沿嗅觉无比敏锐的企业家们...原创 2021-06-12 19:45:43 · 405 阅读 · 0 评论 -
各种传统商业分布式数据库产品的比较
Netezza, GreenPlum, TeraData, ExaData等产品基本上代表了主流关系数据库近年来主要的进展,它们最明显的共同特征有以下几点:1. 水平扩展性。这一点克服了传统关系数据库最主要的问题,以上产品基本上都有很好的水平扩展能力;2. 软硬件一体化。上面介绍的产品绝大多数采用了数据库一体机的技术策略,将软件与硬件进行预安装、预调优后,统一销售给客户;3. 并行计算与分布存储。虽然具体的实现方法可能不同,但以上产品基本上都采用了...原创 2021-06-12 19:43:08 · 432 阅读 · 1 评论 -
关于乐观事务与悲观事务的通俗解释
近期看到有些同学,特别是在TiDB学习的过程中,对乐观事务(Optimistic Transaction)与悲观事务(Pessimistic Transaction)的概念有所疑问,或者说不能真正理解其涵义。而相关文档,大多都是技术性描述及技术流程的介绍,例如“乐观事务在事务提交时检查冲突”、“并发事务不常修改同一行时,可以跳过获取行锁的过程进而提升性能。但是并发事务频繁修改同一行(冲突)时,乐观事务的性能可能低于悲观事务。”,以及两阶段提交过程的算法式描述。虽然客观上问题已经说的很清楚了,但对于那些对分布原创 2021-05-23 21:17:49 · 1053 阅读 · 0 评论