• 博客(244)
  • 收藏
  • 关注

原创 云计算与大数据进阶 | 26、解锁云架构核心:深度解析可扩展数据库的5大策略与挑战(下)

领导者(Leader):唯一写入口,负责生成事务编号(ZXID)、广播消息;跟随者(Follower):接收并执行 Leader 的指令,参与选举。

2025-05-19 17:37:43 386

原创 沸点 | 从 “黑箱” 到 “透明”:嬴图图增强智能技术入榜中关村前沿科技大赛——解码 AI可解释性的产业落地路径

近日,第八届中关村国际前沿科技大赛人工智能领域赛在中关村东升国际科学园圆满收官。在这场汇聚全球顶尖 AI 创新力量的巅峰对决中,嬴图凭借 “图增强智能 XAI 系统” 从 全球 200 余个参赛项目中突出重围,荣膺人工智能领域 TOP10榜单,成为本届大赛国际化舞台上技术创新性与商业化潜力兼具的标杆案例。

2025-05-16 17:33:33 538

原创 云计算与大数据进阶 | 26、解锁云架构核心:深度解析可扩展数据库的5大策略与挑战(上)

在云应用/服务的 5 层架构里,数据库服务层稳坐第 4 把交椅,堪称其中的 “硬核担当”。它的复杂程度常常让人望而生畏,不少人都将它视为整个架构中的 “终极挑战”。不过,也有人觉得可扩展存储系统才是最难啃的 “硬骨头”,其实这场关于谁更复杂的争论没有标准答案,很大程度上取决于具体的业务应用模式(就可扩展存储系统,老夫打算在后续的文章中具体再聊)。

2025-05-16 14:16:48 1256

原创 回答 | 图形数据库neo4j社区版可以应用小型企业嘛?

此外,系统在运算每一个查询时所需的时间、空间复杂度的问题也是存在的,因为图查询经常是高维的、递归的、单一的复杂查询请求(例如查询某个顶点的全部多步邻居集合,或两个顶点间的全部最短路径数量),如果每一步的复杂度都较高,那么整体的查询复杂度就会呈指数级升高,直至系统失控(内存溢出、死机或无法返回)。这中,还有一个留给大家思考,这也是开源社区都要面对和思考的,一款优异的产品特别是新产品,如果有明确的商业化道路可以遵循,那么还有什么理由去打造一个开源的版本,使其性能、功能与商业版本没有差异呢?

2025-05-12 17:43:54 970

原创 沸点 | 嬴图入选 2025年度 DataTech50 榜单

双年入选,引领科技

2025-05-08 10:13:46 384

原创 云计算与大数据进阶 | 25、可扩展系统构建

缓存服务层的扩展性实现在避免出现单点失效的基础之上,单个节点的缓存服务器/应用服务器共享节点的方式在生产环境中都是不可取的,主要问题是如何实现多缓存节点间的负载均衡。需要指出的是,系统扩展性不能是以牺牲性能为前提的,如我们在前面的文章中讨论过的,横向扩展的系统在简单、浅层查询的高并发场景中有优势,但是在复杂、深层查询的场景中,垂直扩展的系统更具优势,因此,系统扩展过程中通常是纵向扩展与横向扩展兼而有之的。此外,还有一个问题是基于纵向扩展设计的系统的瓶颈性显而易见,因此纵向扩展的扩展性能甚为堪忧。

2025-05-06 18:44:24 1289

原创 揭秘大数据 | 24、资源管理、高可用与自动化

比资源管理更贴近最终用户的是一系列的服务,正如软件定义数据中心分层模型(见图3-25)所示,这些服务可以是普通的邮件服务、文件服务、数据库服务,也可以是针对大数据分析的Hadoop集群等服务。业界通常将5个9以上的系统称为零死机时间系统——颇具讽刺意味的是,某公有云厂商动辄鼓吹自己的系统和服务达到11个9的可用性,但是一根光纤断了、一个服务接口的故障就可以导致整个机房下线数天。最常见的高可用集群是两节点的集群,包括主节点与冗余节点各一个,也就是100%的冗余率,这也是集群构建的最小规模。

2025-04-18 17:14:21 837

原创 揭秘大数据 | 23、软件定义网络

各种异构的、不同协议的网络设备之间的兼容性和互通性令人望而生畏;通过将网络状态集中到控制层,软件定义网络利用动态和自动的编程方式为网络管理者提供了灵活的配置、管理、保护和优化网络资源的方式,而且管理员可以自己编写这些程序,而不用等待新功能被嵌入供应商的设备和网络的封闭软件环境之中。对网络用户,特别是互联网厂商和电信运营商而言,软件定义网络意味着网络的优化和高效的管理,可以用于提高网络的智能性和管控能力,大幅降低网络建设与运维成本,还可以促进网络运营商真正开放底层网络,大大推动互联网业务应用的优化和创新。

2025-04-17 17:49:52 669

原创 揭秘大数据 | 22、软件定义存储

需要指出的是,无论是安全还是管理与编排,它们整体的发展都是朝着大数据、快数据、流数据的方向进行,相关系统的体系架构也一定是朝着分布式、并行式的云计算架构方向前进,这其中对网络(负责数据的迁移)​、计算(负责通过对数据的计算、分析得出信息与智能)以及存储(负责数据最终的存储与管理)具有天然的需求。主流的软件定义存储技术方案通常对数据管理与数据读写进行分离,由统一的管理接口与上层管理软件交互,而在数据交互方面可以兼容各种不同的连接方式,这种方式可以很好地与传统的软硬件环境兼容,从而避免“破坏性”的改造。

2025-04-16 17:24:56 1022

原创 揭秘大数据 | 21、软件定义计算

我们有理由相信,假以时日,容器技术的作为会更大,不过在相当长的一段时间内容器技术更侧重于第三平台的应用,特别是无状态类应用与服务。图8展示了从容器到统一内核的精简过程,很显然,统一内核缩减了操作系统内核的足印,也简化了每个容器化应用对底层的依赖关系,由此带来了更快的部署、更高的迁移运行速度。容器计算是软件定义计算虚拟化的新锐势力,它与虚拟机技术的最大区别在于不需要虚拟化整个服务器的硬件栈,而是在操作系统层面对用户空间进行抽象化,因此我们称其为操作系统级虚拟化,以区别于之前的基于硬件虚拟化的虚拟机技术。

2025-04-15 18:21:18 819

原创 揭秘大数据 | 20、软件定义数据中心

还有传统的硬件提供商英特尔公司,作为主要的硬件厂商之一,为了满足巨型的、可扩展的、自动管理的未来数据中心的需要,英特尔公司也提出了自己全新架构的硬件——机柜式架构(Rack Scale Architecture,RSA)。从VMware公司在2006年发布成熟的面向数据中心的VMware Server产品到如今,不仅仅是服务器的虚拟化经历了从全虚拟化到硬件支持的虚拟化,再到下一代可扩展虚拟化技术的发展,软件定义存储、软件定义网络也迅速发展起来,并成为数据中心中实用的技术。接下来,老夫将分三篇文章,就。

2025-04-14 16:01:07 861

原创 揭秘大数据 | 19、软件定义的世界

主要的资源被虚拟化,这只是实现了软件定义的第一步,这是因为虚拟化在解决大量现有问题的同时,也带来了一些新的挑战。

2025-04-10 17:31:21 1251

原创 视频 | 对等关税砸盘,全球市场惨跌,图计算暗藏破局密码

比如这次因为关税原因,众多机构都纷纷抛出手中的产品,抛售之后,机构又得补充保证金,于是像黄金、加密货币这类相对值钱的资产也惨遭抛售,以回笼现金,就连原本盈利的品种也被拖入下跌的漩涡……伴随科技领域日新月异,信息流动、物资流动都达到了前所未有的水平,越来越多的企业参与到全球经济循环中,横贯东西方几个世纪的生产力鸿沟,正在被快速填平。然而,我们也看到了硬币的另一面,在构成世界的复杂逻辑中,“戴尔理论”并不灵验,“修昔底德陷阱”并将长期存在。一旦某一品种价格下跌,与之关联的品种也会殃及池鱼,就容易引发连锁反应。

2025-04-09 10:27:12 271

原创 揭秘大数据 | 18、关于流数据管理的那些事儿

老夫之前就讲过,大数据一般被分为就是其中之一。感兴趣的朋友,可以点击以下文章进行温故知新:来自这样一个概念:数据的价值随着时间的流逝而降低,所以在事件发生后需要尽快对其进行处理,最好是在事件发生时就进行处理(即实时处理)​,对事件进行一个接一个的处理,而不是缓存起来进行批处理(如Hadoop)​。在数据流管理中,需要处理的输入数据并不被存储在可随机访问的磁盘或逻辑缓存中,它们以数据流的方式源源不断地到达。①实时性:数据流中的数据实时到达,需要实时处理。②无边界:数据流是源源不断的,大小不定。

2025-04-07 14:32:12 881

原创 揭秘大数据 | 17、MPP 那些事儿

Greenplum是业界第一个开源的MPP数据库,对想要实现OLTP和OLAP一体化大数据分析与管理系统的人来说,这是个天大的好消息。例如在大数据分析和处理中,MPP 数据库可以将数据分布在多个节点上进行并行处理,从而提高处理速度和效率。和MapReduce类似,两者都采用大规模并行处理架构对海量数据进行以大数据分析为主的工作,不同之处在于MPP通常原生支持并行的关系型查询与应用(不过这一点,Hadoop阵营也在逐渐通过在HDFS之上提供SQL查询接口来支持查询,甚至包括关系型查询)​。

2025-04-03 18:02:37 359

原创 揭秘大数据 | 16、OLAP 那些事儿

第3个指的是Hadoop的HDFS适用于增加−读取−追加−处理(Create-Read-Append Process,CRAP)类型数据集操作,相对于RDBMS时代的增加−读取−更新−删除(Create Read-Update-Delete,CRUD)类型数据集操作而言,CRAP对已建立的数据集主要为读操作,以及在尾部的添加操作,而不是更新与删除操作,其主要原因是更新与删除操作在分布式系统中通常代价比较高。Hadoop MapReduce是用于分析存储在HDFS之上的大数据的编程框架,它包括库与运行时。

2025-04-02 14:36:05 922

原创 揭秘大数据 | 15、OLTP 的那些事儿

数据中的不同记录可能有不同的属性和格式。当插入数据时,并不需要预先定义它们的模式(如MongoDB,后文中将会介绍)​。NoSQL和传统的关系数据库的对比如图1所示。可以看出,NoSQL数据库无数据清洗,无数据转换,无数据加载,并且在数据存储处进行分析。

2025-04-01 12:15:23 955

原创 嬴图入围银行技术奖总决赛,推动金融科技审计创新​

极大提升了审计工作的效率与质量,精准回应了金融行业数字化转型中对审计服务高效、智能、可解释性的迫切需求,契合金融行业数字化转型中对智能、高效审计服务的需求。近日,金融科技领域再度聚焦于创新力量的角逐,北京/硅谷出身的图数据库领先企业——嬴图,凭借其卓越的技术实力与创新解决方案,成功入围。从英国的荣耀加冕到美国的总决赛入围,嬴图在金融科技奖项领域的持续突破,背后是其对技术研发的执着投入与对行业需求的深刻洞察。,证明了其在图数据库技术与人工智能融合应用方面的领先地位。,通过将复杂的金融交易网络以直观的。

2025-03-31 10:07:23 329

原创 揭秘大数据 | 14、大数据的五大问题 之 大数据应用

大数据所面临的五大问题中最后一个是,这也是大数据问题的具象(最终展现形式)​。如果高度概括大数据的生命周期,那么可以归纳为:大数据来源+大数据技术+大数据应用,如图1所示。三者缺一不可、彼此相承。

2025-03-26 10:29:39 672

原创 揭秘大数据 | 13、大数据的五大问题 之 数据科学

数据科学是一个热门的领域,而数据科学家是拥有特殊技能的专业人才,负责为复杂的业务建模,从海量数据中洞察先知并找到新的商业机遇。它们结合了统计分析、模式识别、机器学习、深度学习等技术,获取数据中的信息,形成推断及洞察力,所采用的相关方法包括回归分析、关联规则(如购物篮分析)​、优化技术和仿真(如用于构建场景结果的蒙特卡洛仿真)​。商业智能的组件及功能如下。图1描述了数据科学的典型流程,涉及原始数据的采集、清洗、基于规则或模型的数据处理与分析、建模+算法、汇总+可视化、决策、大数据产品(可选)等多个环节。

2025-03-25 11:58:08 766

原创 揭秘大数据 | 12、大数据的五大问题 之 大数据管理与大数据分析

以数据库交易为例,要实现ACID,最关键的部分是数据的一致性,通常的做法是通过加锁的方式,在一个读写方对某数据进行读写的时候,让其他读写方只能等待。或者对方没收到,而你的钱被扣掉了(被坑了的感觉)​。构建面向海量信息的大数据管理平台,其本质上是要实现一个可软件定义的数据中心来对下层的基础架构进行有效的管理(存储、网络、计算及相关资源的调度、分配、虚拟化、容器化等)​,以满足上层的业务与应用需求,并通过软件的灵活性与敏捷性实现高的总投资收益率(Return on Investment,ROI)。

2025-03-24 16:13:03 1136

原创 荐读 |《数智金融创新:技术和业务引领的优秀行业实践》——解码金融业数智化转型的实践指南

在数字经济与实体经济深度融合的新时代背景下,金融行业正经历以技术驱动为核心的深刻变革。为助力行业把握转型机遇正式出版。。由广东省粤港澳合作促进会金融专业委员会、粤港澳大湾区金融创新研究院、澳门电子金融产业贸易促进会联合策划,融创平台组编。

2025-03-21 16:47:26 819

原创 揭秘大数据 | 11、大数据的五大问题 之 大数据存储

在这样的背景下,一种新的存储管理模式开始出现,那就是软件定义存储。软件定义存储不同于存储虚拟化,软件定义存储的设计理念与软件定义网络(Software Defined Network,SDN)有着诸多相似之处。软件定义存储旨在开辟一个如下的新世界。(1)把数据中心中所有物理的存储设备转化为一个统一的、虚拟的、共享的存储资源池,其中存储设备包括专业的SAN/NAS存储产品,也包括内置存储设备和DAS。这些存储设备可以是同构的,也可以是异构的,还可以是来自不同厂商的。

2025-03-20 15:13:15 1157

原创 揭秘大数据 | 10、大数据不只是Hadoop

2020年以前这种论调在业界颇有市场,尤其是在国内市场(尽管美国市场在2019年就有人提出了“Hadoop已死”的论调)​。因为Hadoop真的很火爆,所以尽管许多人并不清楚Hadoop到底是什么、可以用来做什么,只是看到了行业的头部企业使用了基于Hadoop的系统,于是中小型企业也一窝蜂地要使用基于Hadoop的系统处理大数据相关业务。在这种跟风的市场氛围下,如果某种大数据技术和Hadoop不沾边儿,那么客户、投资人甚至企业自己的团队成员都有可能会对该技术的前景持迟疑态度。

2025-03-18 17:12:26 922

原创 揭秘大数据 | 9、大数据从何而来?

在科技发展史上,恐怕没有任何一种新生事物深入人心的速度堪比大数据。如果把2012年作为数据量爆发性增长的第一年,那么短短数年,大数据就红遍街头巷尾——从工业界到商业界、学术界,所有的行业都经受了大数据的洗礼。从技术的迭代到理念的更新,大数据无处不在。时至今日,在日常的生产生活中,每时每刻都有数以亿计的设备在产生巨大体量的数据……

2025-03-17 17:34:52 792

原创 专家观察 | AI价值链条:价值导向分析

应广大读者要求,现将在天奕TGES专题讲座金融人工智能发展、Deepseek应用与分享管理的内容进行全文分享。期待与大家进行更多的交流与探讨 。【全文整理如下】分享主题:AI价值链条:价值导向分析当下 AI 价值链条,其实是个倒三角形结构,见下图所示。底层是硬件提供商,在全球范围内,硬件提供商数量极少,由少数寡头掌控;第二层是云和基础设施的厂商,同样,这类厂商在全球的数量也相当有限;第三层是各类 AI 组件、工具、应用的开发商。这一层数量增多,众多 AI 创业公司以及大模型厂商都涵盖其中,部分厂商业务可横

2025-03-14 11:39:40 756

原创 揭秘云计算 | 8、云服务与产品的演进

了解云计算服务、产品与解决方案的演进历程可以从服务提供方或需求方入手。对于某些用户而言,提供远程桌面、瘦客户端(取代现有PC主机、笔记本电脑)是日常办公云化的第一步;而对于其他用户,特别是一些对于流程较注重的公司而言,他们可能会从购买SaaS化的办公自动化系统、CRM或ERP系统入手。研发型机构或IT公司接入云的方式则更有可能是直接购买虚拟化的IaaS资源,如云主机、云数据库服务等。

2025-03-12 17:37:26 1149

原创 图库 | 基于图增强的智慧审计系统革新

4、白盒化、可解释:区别于传统的复杂SQL代码查询的黑盒化问题,以及深度学习、人工智能算法中常见的黑盒化、不可解释性等问题,图数据库中的查询、算法整体的特点是计算(查询)的结果基本上是确定性的,每一步都是可解释、白盒化的。,三者相辅相成:在数据建模上,能够构建高维、可解释性强的图谱,清晰展现数据间复杂的关联关系;基于图增强技术的智慧审计系统通过对传统审计模式的革新,实现了算力的提升、效率的飞跃和准确性的增强,为金融机构在复杂多变的市场环境中提供了更为强大、精准的审计支持,助力其有效防范风险,实现稳健发展。

2025-03-07 10:27:43 1062

原创 图数据库 | 25、如何优化图系统?

在K邻查询中,有6个场景分别测试1、3、5层在无过滤和有过滤条件下查询操作的平均时延,因为测试数据集(alimama)属于连通度较高(E/V≥20,即点边数量比)的图集,在进行5度查询时,从每个顶点出发几乎会遍历全图,计算复杂度上升,这个时候Neo4j会骤然从3-Hop的平均400ms(无过滤)​、275ms(有过滤)时延到10~30min内无法返回结果,而Ultipa系统则从14~17ms的耗时增长到558~791ms(理论上从3-Hop到5-Hop的计算复杂度变化为O((E/V)2)≈400)​。

2025-03-04 12:29:53 673

原创 图数据库 | 24、如何进行正确性验证?

在更复杂(更深度)的查询中,可以用类似的逻辑,通过层层的抽丝剥茧来验证结果的正确性。在Twitter数据集中,任意两个顶点间的杰卡德相似度计算的复杂度和被查询顶点的1度邻居的个数直接相关,以顶点12、13为例,它们都是典型的有百万邻居的“超级节点”​,在这种情况下,手工验证结果的准确性并不现实。面向高维数据的操作:这也是本书关注的重点,例如面向全图或子图数据的查询结果返回多个顶点、边组合而成的高维数据结构,可能是多顶点的集合、点边构成的路径、子图(子网)甚至是全图遍历结果。

2025-02-27 17:41:15 826

原创 图数据库 | 23、如何评测图系统 — 评测内容?

图增强智能、白盒化与可解释性,建模过程完全可以透明化作为一种通用的底层系统,它向客户提供的应该是优越的算力、白盒化的算法,而不是黑盒化的模型和算法图系统评测内容并没有所谓的标准答案,但是会有一些典型的测试内容及流程,本节主要向读者介绍这些内容与具体步骤,以供借鉴。评测内容一般可分为9个部分:构图(建模)能力;数据的导入、导出能力;元数据处理能力;深度查询能力;图算法能力;二次开发支持;可视化支持;系统安全性;运维支持能力。图数据库建模能力、建模复杂度、灵活性等;

2025-02-26 18:33:54 1003

原创 图数据库 | 22、如何评测图系统 — 评测环境?

图系统的评测是验证系统功能与能力很重要的一环。一般而言有三大评测途径:自评、偏学术(公益、标准化)类型组织的评测和工业界的内部评测。自评是每一个图系统构建者一定需要反复进行的工作,只有经过全面的自评才能查漏补缺、知己知彼,不过因为缺乏第三方的检验,很多自评结果容易受到质疑,如准确性、公平性、全面性等;学术类型组织的评测在海外有LDBC(Linked-Data Benchmark Council)​、加州大学伯克利分校的GAP Benchmark等机构,在国内有大数据信通院等机构;

2025-02-24 11:14:08 946

原创 札记分享 | 建模流水线的七道工序

知行合一致良知,终身学习实践,更新知识框架与认知范式,运用唯物辨证法等方法论持续提升,“苟日新,又日新,日日新”,人们的正确应对之道。逝者如斯夫,不舍昼夜。常有人将数据比做内燃机时代的“原油”,电气时代的“电力”,但是否有人想过:如果单位数据量的生产成本不能显著降低,就算质量得以保证,但仅靠实验室制备的涓滴汽油或电荷,是无法为算力与算法提供强大动力的;我的体会,“健识”就是要求我们知行合一致良知,终身学习实践,更新知识框架与认知范式,运用唯物辨证法等方法论持续提升,“苟日新,又日新,日日新”,方近乎道矣。

2025-02-17 11:11:12 941

原创 图观 | 马斯克追查资金流向难题,图技术究竟如何神助攻?

在大洋彼岸,马斯克领导的政府效率部团队(DOGE)利用先进技术对资金流向进行地毯式排查,从政治献金的数据关联,到游说活动的信息披露,从承包商企业的股权结构穿透,到政府支出明细与联邦采购数据的梳理,甚至对军商之间的可疑往来、上层隐秘的利益交换网络,都展开了深度调查。“图” 技术擅长处理复杂关系、深度挖掘穿透,突破传统追踪局限,实力非凡。此前在麦道夫庞氏骗局中,它协助银行找回隐匿 20 年的资金,揪出关键人物 Picower,迫使其遗孀归还 72 亿美元赃款,成金融反欺诈佳话。以下为图技术实现路径。

2025-02-17 10:37:47 999

原创 图数据库 | 21、无深度,不成图!

例如,100亿的数据是热数据,1000亿的数据是温数据,9000亿的数据是冷数据。简而言之,很多所谓的千亿、万亿规模图,实际上实体的规模仅有不到10亿,大量的实体都应该作为点、边的属性存在,并且大量的边都是“无效边”​(有的图数据库仅支持单边图模式,例如两个用户账户之间会存在多笔交易,但是每笔交易无法以边的形式存在,只能用顶点来表达交易,进而需要在交易顶点与账户顶点间形成2倍的边,这种单边图就会形成3倍数量的点边集合)​。容量规划的另一个误区,就是对于实际可能需要构建的图的规模的误判。

2025-02-10 15:20:54 619

原创 图数据库 | 20、如何规划、评测和优化图系统(上)

但需要指出的是,单边图是多边图的一种特例,用多边图可以实现单边图的效果,反之则不然。关于数据建模,老夫在前面的文章中多次提及,图系统的数据建模通常有不止一种方式,甚至可以说在多种建模方式中去探寻数据之间的关联关系,可以做到“条条大路通罗马”​,然而,每条路到罗马的时间、难度、消耗可能是千差万别的。很明显,工业界的图数据是动态的、异构的,数据实体间的关联性是多样的,哪些数据可以作为实体,哪些可以作为边,甚至哪些可以作为点或边属性都是可以随着业务的需求而变换建模的思路来更好地解决业务的挑战。

2025-02-08 11:15:21 1086

原创 揭秘云计算 | 7、云服务与产品的演进历程

了解云计算服务、产品与解决方案的演进历程可以从服务提供方或需求方入手。

2025-01-20 15:15:29 524

原创 图数据库 | 19、高可用分布式设计(下)

本篇文章对分布式图数据库系统中最复杂的一类系统架构设计进行探索,即水平分布式图数据库系统(这个挑战也可以泛化为水平分布式图数据仓库、图湖泊、图中台或任何其他依赖图存储、图计算及图查询组件而形成的系统)​。

2025-01-17 18:54:07 938

原创 图数据库 | 18、高可用分布式设计(中)

分布式共识系统,特别是分布式共识算法就由此应运而生,被用来保证即便在分布式系统中出现了各种各样的问题,但是整体服务依然可以保持在线。

2025-01-16 15:52:25 1499

原创 专访 | 图数据库市场的嬴图,“不可能三角”的六年闭环之路

嬴图的成绩单熠熠闪耀。嬴图创始人兼CEO孙宇熙向雷峰网(公众号:雷峰网)回顾嬴图的成长历程,感慨完成产品“不可能三角”的闭环并不容易。从0到1,嬴图如何在图数据库市场中打出自己的名声?已经是第四次创业的孙宇熙,这些年对数据库市场又有何观察?

2025-01-15 14:58:29 743

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除