国产数据库Hubble-CSDN博客

原创 HTAP数据库：Hubble实时计算场景的最优选择

实时流式计算适用场最大的特点就是及时，试想以下场景，如果没有流式计算系统，公司会损失多少MONEY：需要实时异常检测的欺诈/风控等系统需要实时查看交易额的交易系统需要实时计算点击/计算分成的广告系统需要实时更新用户标签的实时用户画像系统需要实时根据用户喜好推荐商品的实时推荐系统再试想以上场景，如果核心技术不是国产自研的，信息风险会有多高？大数据兴起之初，Hadoop并没有给出实时计算解决方案。随后Storm，SparkStreaming，Flink等实时计算框架应运而生。六年前提起实时流式计算

2021-03-24 10:08:24 299

转载 HTAP数据库：Hubble释放物联网数据潜能

有一双未卜先知的眼睛，城市里错综复杂的十字路口和成千上万的路段里路况都在它的视野里，并且它能提前告诉你5分钟后、10分钟后，乃至1个小时后的路况信息；有这样一个全能机器管家，它能很好的感知设备性能的衰退、精度的缺失、易耗件的磨损和资源的浪费等，立体的给你呈现设备的所有信息；有这样一个安全大咖，它可以360度感知全球气候异常情况，实时监测环境的不安全性，提前预防、实时预警。这都是物联网的实际应用。这些用例有两个共同点：海量数据、实时分析计算。海量到什么程度？一天的数据量就能**超过1000亿条！**互

2021-03-24 10:07:16 202

转载 HTAP数据库：Hubble加倍实现数据湖价值

98%的企业都面临数据孤岛问题，数据没标准、数据难统一、数据难打通、数据质量低。打通数据孤岛难度大周期长成本高，企业每年在糟糕的数据上多花费近25%的成本。有痛点就有市场，数据湖应市而生。为什么是数据湖而不是数据河或者数据海？河强调的是流动性，而企业数据是需要长期沉淀的，因此叫湖比叫河要贴切。既是长期沉淀下来的数据，一定是海量数据，而且是多种类型的数据包括结构化、半结构化和非结构化。因此，数据湖产品必须能从多个数据源获取原始数据，并且针对不同的业务，同一份原始数据还可能有多种满足特定内部模型格式的数据

2021-03-24 10:05:42 175

原创「分布式技术专题」时钟系列二：数据库世界中为什么要有时钟？

时间概念来源于事件发生顺序的最基本概念，如果说事件发生在3点15分，说明它发生在3点15分到3点16分之间。在现实世界里，想知道当前时间好像并不是什么难事，可对于电脑来说，事情却没有那么简单。现代计算机系统中，对于时间流逝的感知和度量，大部分来自石英晶体振荡器。石英晶体振荡器是高精度和高稳定度的振荡器，被广泛应用于彩电、计算机、遥控器等各类振荡电路中，以及通信系统中用于频率发生器、为数据处理设备产生时钟信号和为特定系统提供基准信号。但其并不以绝对恒定的频率震动，所以总会出现频率稍高或稍低的状况，而这

2021-02-18 14:38:08 328

原创「分布式技术专题」时钟系列一：事件的因果和逻辑时钟

随着数据量的上升，传统单机架构存在的瓶颈已不能满足对性能和容量的要求，从而分布式系统变得越来越火热，但另一方面，分布式也带来了很多相对于单机架构不同的问题。其中一个问题就是多节点的时间同步问题：不同节点上的物理时钟难以同步，导致无法区分在分布式系统中多个节点的事件顺序。早在1978年，Lamport在《Time, Clocks and the Ordering of Events in a Distributed System》中，就提出了逻辑时钟的概念，就是用来解决分布式系统中事件发生的顺序问题。事

2021-02-18 14:31:33 307

原创「分布式技术专题」SQL 解析的 AP/TP 判别

通常SQL语句可以分为分为四大类：数据查询语言DQL，数据操纵语言DML，数据定义语言DDL，数据控制语言DCL。但在数据的操作上，可以根据SQL对于IO、CPU、内存等资源的消耗可以分为AP的SQL和TP的SQL。通常情况下单个TP的SQL语句对于资源的消耗是非常的少的。而AP的SQL会消耗量的IO、内存、CPU等资源。过程如下图：ap_tp_decideSQL的判别可以从几个点入手：1）基于规则的判别。SQL语法可以解析为抽象语法解析树，通过观察者模型对语法解析数进行规则分析，提取出SQL

2021-02-09 14:33:45 760

原创「分布式技术专题」基于代价解析的最优路径规划

CBO代价解析在过去数据库主要使用基于规则的优化器（RBO）,基于规则将SQL解析生成的关系表达式进行等价交换，形成更优的方案，例如，有一个多表查询SQLselect a.c_id,sum(c.price) from a,b,c where a.c_id=c.c_id and c.o_id=b.o_id group by a.c_id order by sum(c.price) desc;如果直接解析，将会把a,b,c查询的一部分创建为CROSS JOINS,再创建FILTER。再未优化的情况下，CR

2021-02-09 14:30:36 265

原创「分布式技术专题」数据库常见的JOIN算法

mysql支持的join算法• Nested Loop Join• Index Nested-Loop Join• Block Nested-Loop JoinIndex Nested-Loop Join 和 Block Nested-Loop Join是在Nested-Loop Join基础上做了优化。Nested Loop JoinNested-Loop Join的思想就是通过双层循环比较数据来获得结果；其中左表为外循环，右表为内循环，左表为驱动表。其实现逻辑简单粗暴，可以理解为两层for

2021-02-08 15:34:38 192

原创「分布式技术专题」两种向量化执行引擎的实现方法

向量化执行引擎在三种常见的数据库查询引擎执行模型中我们讲到了向量化执行引擎本质上是一种批处理模型。批处理思想在计算机的世界里经常闪闪发光。高并发场景中，可以把大量的请求合并，改为调用批量接口；大数据下读取分布式文件系统时，如果要读取大量的小文件，可以将这些小文件打成tar包，或者批量一次打开100~500个文件；数据库插入数据时，修改单条插入为批量插入等。批处理减少了cpu的中断次数，可以更加合理的利用资源。在向量化执行引擎模型中，列式存储占据着天然的优势：1、压缩能力的提升。同一列的数据类型相同，压

2021-02-08 15:20:56 790

原创「分布式技术专题」三种常见的数据库查询引擎执行模型

一、迭代模型/火山模型（Iterator Model）又称 Volcano Model 或者 Pipeline Model。Iterator Model该计算模型将关系代数中每一种操作抽象为一个 Operator，将整个 SQL 构建成一个 Operator 树，查询树自顶向下的调用next()接口，数据则自底向上的被拉取处理。火山模型的这种处理方式也称为拉取执行模型(Pull Based)。大多数关系型数据库都是使用迭代模型的，如 SQLite、MongoDB、Impala、DB2、SQLSe

2021-02-07 13:39:49 526

原创「分布式技术专题」SQL优化的前置条件和优化技巧分享

SQL优化是数据库优化的一部分，数据库优化又是系统优化的一部分。本篇着重讲解SQL优化的一些技巧，另外，硬件基础、业务类型、存储结构也是影响SQL执行效率的重要因素，是SQL优化的前置条件。一、SQL优化的前置条件1、硬件基础数据库是操作系统之上的一种数据管理软件，其SQL最终的执行还是需要在硬件层面执行，所以硬件条件如CPU核数、内存大小、磁盘转速、网络带宽等是保障数据库的SQL脚本能快速运行的基础。2、业务类型判断• 了解业务是读多写少还是读写均衡，判断是偏OLAP还是OLTP业务• 根据表

2021-02-07 13:38:33 149

原创「分布式技术专题」常用的SQL算子介绍

SQL查询的执行过程，就像工厂的加工流水线，层层递进，最终得到想要的结果，而SQL算子就好比其中的一道道工序。本篇简要介绍一下SQL执行计划中，一些常见算子的含义和逻辑。• indexscan 索引扫描当数据表中创建了索引，并使用索引字段进行查询时，会进行索引扫描。• tablescan 顺序表扫描tablescan 负责从磁盘中以连续块的形式从磁盘中读取数据页。一般在SQL查询中，有几张表就要有几个 tablescan 操作。在分布式数据库中，同一张表的扫描，还会被分配到多个结点使用分布式的方

2021-02-05 10:56:15 813

原创「分布式技术专题」剖析一个SQL的解析及执行过程

无所不能的程序猿吐出一句魔法[SQL]，刹那间，IO 犹如千军万马奔流不息，内存似鲸吸牛饮，海纳百川，CPU 更是狂暴着以360%负荷高速运转，瞬间，一个美妙的身影出现了……一条SQL的背后，数据库到底做了什么，本文将深入浅出的聊一下SQL的解析和执行过程。一、SQL简介SQL是上世纪70年代，基于关系型数据库发明的一种简洁的数据操作语言。SQL按功能可以分为以下三种类型：• 数据定义语言 DDL主要用于创建库表、索引，设定字段类型，以及指定存储和压缩格式等。• 数据控制语言 DCL主要用

2021-02-05 10:54:30 207

原创 Impala打开分布式技术的大门天云数据Hubble赶超

在数据体量121亿条账户下进行资金查询测试，天云数据Hubble的性能是Impala的231%倍。Impala，一种栖息在非洲南部的高角羚，行动敏捷奔跑迅速，以其优雅的姿势和杰出的跳跃能力而出名。受惊的时候可以跳起 3米高，9米远。Cloudera研发这头高角羚（Impala）的初衷也很明了——提高Hive SQL查询的速度。就官方测试性能开看，Impala比Hive快10到100倍，其SQL查询比SparkSQL还要更加快速。Impala号称是当前大数据领域最快的查询SQL工具，也因其更快的速度被市

2021-02-03 14:13:40 261

原创生于硬核 DTCC2020Hubble与技术硬核“同生共荣”

2020年12月21-23日，第十一届中国数据库技术大会在北京国际会议中心举行。天云数据受邀参展并在数据库内核专场做国产数据库Hubble产品的技术演讲，同期天云数据荣获2020数据风云奖评选之年度创新企业奖。技术硬核，国产数据库市场的切肤之痛。国产数据库起步晚，在信息、人才、技术等多重窘境之下，很多企业采用“拿来主义”的手段弥补国产技术的空白。以Oracle、开源的 MySQL和PostgreSQL为底座进行物理资源融合，进而实现数据同步和实例跨节点一致性等数据库集群功能。这种方法虽然也完成了工作

2021-01-27 09:38:42 139

原创国产数据库Hubble喜获全国信创产业生态创新大赛一等奖

国产数据库Hubble喜获全国信创产业生态创新大赛一等奖在“数字中国”和“新基建”的背景下，2020首届全国信创产业生态创新大赛颁奖盛典于11月27日在国家信创园落幕，天云融创数据科技(北京)有限公司（以下简称：天云数据）以其自主研发的HTAP数据库产品Hubble荣获本届大赛一等奖。本次大赛由北京信息化协会主办，促进首都信息化深入发展，为建设世界城市贡献力量。大赛的主题是 “产融合力生态加速”，意在国内自主CPU体系和操作系统，开放政务、金融、网络安全、开源生态等相关主题方向，赋能和加速信创行业生

2021-01-22 16:58:00 240

原创匠人精神打磨六年 “中国制造” Hubble自然走向AI-Native数据库

我们都知道匠人精神是什么，可是，在追逐效率与利益的纷杂市场中，它仍是稀缺物。柏拉图说“美是难的”，匠人精神也是难的。尤其在商业的世界里，商人的本能就会考虑它的成本与预期收益，需要投入多少时间和精力，回报是多少，风险有多高。与此同时，还要保障自己不被外界其他诱惑所干扰，保持初心一直向前更是难上加难。1968年，第一个数据库管理系统(DBMS)上线，但他的代表企业Oracle是在1977年才开启数据库的商业机会，这中间的9年便是市场产品的打磨。国内自主研发数据库的企业开始于上世纪90年代的，以大学、科研

2021-01-22 13:49:00 127

原创天云数据五度蝉联Fintech50强 Hubble实时流计算完胜Flink

2021年1月18日，毕马威2020中国领先金融科技企业评选发布会在京举行，会上公布了“2020毕马威中国领先金融科技企业名单”。2016年至2020年，毕马威五次推出TOP50榜单并获得业界广泛关注，这也是天云数据第五度蝉联50强榜单。毕马威中国的评选标准一直以领先的科学技术应用与突破、数据驱动、模式创新和对传统金融的颠覆、痛点解决与金融效率提升度、估值及资本市场认可以及未来发展潜能与广阔前景六个维度持续贯彻，但每年也会有一些新的不同。毕马威2020会更侧重于科技对于金融机构业务的推动。近些年在金融风

2021-01-22 12:43:31 342

m0_51698806的博客