大数据
文章平均质量分 77
石默研
北京大学博士后,大型互联网公司大数据智能总监,第一界中国软件业十大杰出青年候选人,曾任重点大学计算机教师,20年以上人工智能算法应用、大数据、数据架构与中台等领域的实际项目开发、设计规划与授课经验,出版技术专著三部,美国工程索引IEEE EI论文6篇,自主软件版权一项,美国软件专利一项
展开
-
论解决方案架构师的素养
一个解决方案架构师应该具有的素养,即技术深广度、架构方法论与领域资深专家三个方面原创 2022-09-03 21:39:51 · 1069 阅读 · 0 评论 -
数字金融新型基础设施---金融产业数字化能力引擎
摘要:本文提出数字金融新型基础设施的概念,指出其定位,提出架构模型并进行各核心组件的介绍。数字金融体系建设的核心是打造区域金融协同一体化运行的新型基础设施,数字金融新型基础设施的核心理念是“赋能”,从“授人以鱼”转向“授人以渔”,在其驱动下,业务系统由独立开发进化为基于公共业务能力的组装式自主编排生产,即“系统是模块,业务是模板”;数据体系由集中管理与分析进化为基于公共数据能力组件的自主定制消费,即“消费是核心,管治是基础”;数据要素与服务要素流通互联共同形成“数联网”+“业联网”的数字化协同互联能力;同时原创 2022-03-18 23:05:00 · 2176 阅读 · 0 评论 -
再谈因果性与不确定性
听说耶鲁大学最新的研究与试验成果证明了:量子力学的不确定性实际也有规律可循,只是因为其速度太快,接近“普朗克尺度”,很难被感受到而已。先不论这个试验成果是否真的对量子力学基础理念有这么大的颠覆作用,这里想借机再讨论一下因果性与不确定性。记得最早的一本大数据书籍,给人们带来了数据分析领域新的观点:大数据的根本特征是不遵循因果性。意思就是说,采用大数据思路解决问题,不需要考虑因果,可能用大数据得到的结论表面上看与输入或者其它因素并没有明显的、可理解的关系,但大数据这么说了,那就是这样,即:让大数据自己说原创 2022-03-06 23:19:20 · 2154 阅读 · 0 评论 -
从单点到分布式的哲学启蒙
1. 引子今天看到一篇技术文章,讲到从mysql迁移到tidb,为避免热点问题,将auto_increment自增ID主键改变为预分片RowID的技巧,从而能充分利用分布式资源的优势。这表面看是一个应对小问题的小技巧,但如果深入探讨,却可以引发从单点迁移到分布式,包括数据与应用迁移的方法论思考。2. 平移与重构的思考随着数字化转型的不断深入,在线数据量需求的增加,以及场景化带来的业务敏态进化趋势,近年来,从单点技术体系迁移到分布式技术体系,已经形成不可逆转的热潮。这其中涉及到很多具体..原创 2022-02-12 19:48:02 · 1535 阅读 · 0 评论 -
Paxos协议与分布式事务的通俗解释
Paxos协议与分布式事务都有两个阶段,很容易被人所混淆。实际上,这两者在使用中有关联,但场景却有所不同。大部分介绍材料,都过于学术化,描述过于复杂,让大多数人看了后似懂非懂,导致现实中很多同学对这两者本身,以及两者的区别,也一直处于似懂非懂的状态。本小文试图用最简单、最简短的语言,对这两者及区分进行说明。一、先看Paxos协议,也可以称为一种算法,主要用于分布式节点之间关于某项决策保证一致性,决策的原则就是少数服从多数。跳过复杂乏味的算法过程描述,直接举例说明:要解决的问题:一群朋友决定一原创 2022-02-03 20:27:03 · 615 阅读 · 0 评论 -
用MapReduce实现机器学习小例
用分布式的并发计算能力来实现机器学习算法,是AI实践领域比较重要的方向,因为对海量数据的AI计算来讲,往往单机的能力严重不足,在自己机器上做点实验进行学习可以,但在实际工程中,特别是在所谓的大数据时代,往往需要借助分布式并行计算的能力。当然,已经有很多框架,比如MPI,Hadoop的Mahout,Spark ML、参数服务器等等,在工程中可以供开发者使用,不过,如果要对用分布式来实现机器学习的方法论与过程有更深入的理解与掌握,自行编程进行相关方向的实验,是需要的,在工程中,这种深入的体验也很有可能会原创 2022-01-19 16:22:10 · 2498 阅读 · 0 评论 -
关于HTAP与HSAP
交易分析混合负载HTAP方兴未艾时,同时,还有一个新的概念在业界流转,即HSAP,Hybrid Serving & Analytical processing 服务分析混合负载。1. 概念在讨论HSAP之前,首先需要了解其概念中对服务与分析的区分。相当多从应用角度对数据处理分类的划分,大致分为Transaction交易与Analysis分析两大类,一类位于企业数据架构的上游用于生产数据,一类位于企业数据架构的下游用于数据价值的利用。而HSAP则对位于下游的数据价值利用进行了进一步的区分:原创 2022-01-16 17:06:37 · 4553 阅读 · 0 评论 -
论分布式数据库架构的“存”与“算”
在云计算基础设施IaaS服务中,“存”与“算”的分界是清晰的,客户会分别为“存”与“算”按需消费。不只是专门的存储服务如S3、对象存储、块存储、NAS等,即使是在最基本的虚拟机服务ECS上,“存”也需要由消费者进行选择,而选择的对象是云盘,即位置对用户透明,不需要消费者关心是否在计算节点的本地:其实连计算节点本身位于何处也是无需关心,又何谈本地。随着云计算服务的持续发展,“存”与“算”的界限,无论是从消费模式上,还是从技术上,都呈现出越来越清晰的趋势。而在PaaS层的数据库服务中,则出现两种情况。一种是原创 2021-12-25 13:08:11 · 1473 阅读 · 0 评论 -
交易数据库发展趋势:从账本到发动机
相当一般时间以来,无论有多少脍炙人口的技术进步,包括分布式架构,内存缓存,高并发,多地多中心多活等,交易数据库的核心目标一直都是存证记账。长期以来在该领域所追求的,就是无论我的业务量有多大,业务增长有多快,数据库都能及时的、准确地、可靠地将账记下来。对企业来讲,数据库的价值就是在任何情况下都能保证一个存证的账本。而近年来,数据库领域新的架构设计与技术进步,即HTAP(交易分析混合负载),却给了交易数据库在企业运营中新的定位与职能,那就是,企业业务运营的“发动机”。也就是说,过去,交易数据库的存在只是为了原创 2021-12-15 16:12:34 · 2386 阅读 · 1 评论 -
谈中国分布式数据库商业之路:OSM与DB-Inside
问题的提出中国的分布式数据库商业道路该怎么走?云原生运营还是产品式覆盖?这是一个需要讨论的问题,特别是对于中国市场来讲。云原生运营显然是国际范围内数据库服务的先进模式,这无论是从科技发展趋势上,还是从国际实践上,都已经得到证实。但在中国,由于超过8成的2B数据库市场都被政府与大中型国资所占据,而分布式数据库的主体市场正是2B,不是长尾,从而导致数据库厂商实施云原生运营的商业环境差。可以假设DB Cloud数据库自运营的模式在中国相当长时间内条件并不具备。那么,以市场占有率为目标的产品化模式又如何原创 2021-12-11 20:51:05 · 1254 阅读 · 0 评论 -
浅谈云原生数据库与跨域安全计算
云原生数据库,是支撑现代数据服务的主体设施,它生于云上,长于云上,对外形成按需获取的DBCloud形态,使用者无需关心数据计算与存储的具体细节,无需为部署、运维、扩缩等工作付出精力,无需对数据计算的模态(AP,TP,流,图等)做出额外的规划与设计,无需区分所选择云计算基础设施IaaS的特性与区别,只需要向云原生数据库DBCloud的运营者申请使用相应的服务即可,这是现代数据库技术与服务发展的必然方向。毫无疑问,在不久的将来,全球越来越多的数据服务将在云上,包括多云、跨云的环境中以平台化的方式实现。由于云计算原创 2021-11-29 16:14:17 · 1478 阅读 · 0 评论 -
“敏态业务”新说
“敏态”这个词,是较新流行的关于传统业务互联网化的描述,而其背后主要想表达的意思大多被理解为业务可随时无感扩缩,以适应在时间和空间两个维度上都无处不在的、碎片化的、精细化的新一代业务数字化转型的要求,而在技术上也大多被映射为微服务化的应用与Scalable SQL的数据库。这里认为,“敏态业务”一词,除了上述“业务可随时无感扩缩”一个层面的解释外,还应该附加另一层的业务价值——“即时智能决策”。“即时智能决策”指可以在最新、最近的业务交易基础上,随时做出智能的“业务决策”,这也是新一代业务数字化转型必然原创 2021-10-29 13:00:33 · 3530 阅读 · 0 评论 -
再谈HTAP---论操作分析化与分析操作化
HTAP应该怎样来描述?这需要进行更加深入的讨论与抽象。交易的同时还能做些分析的分布式数据库也有很多,混合负载的提法其实也由来已久,并且都偏向于技术层面,缺乏更有业务特性的、更具代表性的表达。如果将HTAP定位为一种新兴的、有时代意义的架构与技术,那显然不能停留在这样的理解上。假若依据HTAP需要带来的IT架构转型(即“分析上移、数据普惠”)目标,以及重点的应用场景类别(即“分析内嵌的应用”与“数据服务超市”)来反向推导,则可以对HTAP做如下描述:HTAP是操作(Operationalizatio原创 2021-09-08 00:01:50 · 432 阅读 · 1 评论 -
HTAP驱动现代银行IT架构转型之路
HTAP作为一种新兴技术架构与能力,不仅可以带来某单一系统的功能与性能提升,更重要的是会驱动企业IT架构面向现代业务目标的整体转型升级。本文以典型银行IT架构为例,对HTAP驱动ITSP、应用架构、数据架构、技术架构转型升级,乃至面向新数字时代的业务能力提升赋能进行分析与介绍。1. HTAP与银行ITSP规划---“分析上移,数据普惠”HTAP首先带来的,是驱动从服务化、云计算与大数据时代以来,作为指导银行新一代IT架构各层级规划的已有高阶蓝图策略及组件布局进行调整。如下图1是典型的银行新一原创 2021-08-14 19:05:54 · 380 阅读 · 0 评论 -
HTAP数据库及应用场景简析
HTAP数据库,即交易分析混合负载型DB,已经成为一种流行的新型数据库。不仅概念很火,并且也在逐渐成为除OLTP、OLAP之外,越来越多数据库用户新的选型规范。然而,同时又存在一些现象:一是一夜之间,所有的数据库都变成了HTAP数据库;二是除了“能同时承载交易与分析SQL”这一极易模糊的理解之外,基本没有清晰明确的界定;自然而然,对HTAP的应用场景,也是八仙过海,各式各样,并不清晰的。这些,都导致HTAP有成为一种噱头的趋势。1. HTAP的界定这里认为,HTAP既然要成为一种新的标准与规范,原创 2021-08-12 23:37:47 · 3569 阅读 · 0 评论 -
论数据服务平台化的存在形态
数据服务平台化的本意是指对数据需求(包括交易、加工、分析等)用户来讲,其满足需求的方式是向“平台”提出请求即可,而不需要关心请求的具体实现过程。由于数据库是实现数据服务的核心主体设施,因此,从一定含义上来讲,它相当程度上就是云计算PaaS层服务DBaaS的代名词,也可以是数据库产品服务商对其云原生业务发展战略的高度概括。本文对数据服务平台化的讨论限制在数据库服务范畴之内。1. 问题的提出一般意义上来讲,人们对数据服务平台化作如是理解:未来IT服务的主体将由平台(即云)来承担,世界的IT基础设施将是N原创 2021-07-27 00:15:49 · 395 阅读 · 0 评论 -
NewSQL分布式数据库发展策略讨论
本文对新一代NewSQL分布式数据库发展策略中的普遍困扰进行讨论,试图厘清云原生(Cloud Native)与本地部署(On Premise)、HTAP进展方向、分布式与单机需求等分布式数据库商业与技术发展中难以决策的问题。1. 困扰分布式NewSQL数据库近年来蓬勃兴起,其原因显而易见:切中了业务与数据量不断增长的用户对关系型数据库RDBMS需求,这在传统RDBMS到大数据的发展阶段中,有相当一段时间是空白。同时,随着互联网技术的不断发展与普及,用云计算模式满足IT需求似乎已经成为未来社会产业原创 2021-07-19 00:11:42 · 3973 阅读 · 0 评论 -
数据智能系列文章之二:机器学习的核心要素
本文介绍数据智能及机器学习方法的核心要素。从上面的定义可以看出,机器学习有三个核心要素:数据,用现在流行的提法,也可以叫大数据;算法:主要指数据处理与机器学习算法,主体关注机器学习算法;算力,即计算能力,由于进入现代,在大数据基础上进行智能计算,算力已经越来越成为一个不可忽略的要素了。1. 资料:大数据再析数据,显然是数据智能最本质的核心要素,是生产资料,是产生智能的母体。也就是说,人们所寻找的智能,蕴藏在数据之中,所有的其它要素,都只是协助从中将其发掘出来的手段而已。在BI作为数据工程主...原创 2021-06-14 12:10:04 · 2488 阅读 · 1 评论