达梦数据库DMDPC与Hadoop大数据产品体系的差异-CSDN博客

本文链接：https://blog.csdn.net/qinjuao/article/details/133948336

背景
随着互联网的普及及新技术的快速发展，市面踊跃出以Hadoop为代表的大数据开源技术栈，运用这类型技术的公司就是用最小的成本做最大的事情，技术往往是新的、开源的、市场占用率高的特点。而发展多年以国外ODSCle、国内DM8为代表的“传统”数据库厂商，因为足够稳定和可靠，且有靠谱专业的维护支持团队，出现任何问题都有专业的人运维兜底，比如电信行业的BOSS系统，银行的账户系统等等这些数据容不得半点闪失的部门，服务的客户一般为国企，银行、外企、党政等一些预算较为充足的大公司。为了更好的了解两者的差异，故通过以下不同维度来进行对比。
定义
Hadoop大数据体系产品不是数据库，而是一个开源软件集合，通过底层的分布式存储框架（HDFS）来管理庞大的数据集，其主要目的是分析、存储、管理和交付数据。因为Hadoop的核心是HDFS（分布式文件系统），所以从这一点就可以看出它的本质是一个非常强大的文件系统。
市面上针对大数据产品具体有什么内容没有统一的规定，DAMA数据管理知识体系是国际数据管理协会组织专家对30多年数据管理领域知识和实践的总结，也仅仅只是对大数据产品/数据治理作出宏观的描述。就个人理解而言，一个通用的大数据产品体系包含五个部分：
共享服务组件：以接口的形式对外输出数据服务，严格的会包含审批流。
元数据管理组件：数据在组件之间的内部扭转，数据调度管理。
数据/任务计算组件：离线/实时的数据计算，以flink/mr算子进行任务执行。
数据采集组件：源数据通过采集工具（类似kettle）全/增量的形式获取业务数据。
数据仓库/湖仓一体：业务数据以基表+维度=主题的形式进行存储，也可以以来源数据成湖存储+处理后的数据存储在数据仓库一体的方式存储。
HIVE
hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。
达梦数据库产品
DM8
DM8基于C/C++语言开发的国产关系型数据库，有支持X86和ARM平台的版本,可以部署到开源系统CentOS6.X+及国产系统KyLin-V4+上；作为国产关系型数据库，其DM8与ODSCle数据库的设计思路非常相似，但又有区别于ODSCle的特色：
1）ODSCle一个用户一般对应一个schema,该用户的schema名等于用户名，并作为该用户缺省schema。而DM数据中一个用户下可以存在多个schema。
2）ODSCle数据库中不能新创建一个schema，要想创建一个schema，只能通过创建一个用户的方法解决。而DM数据库中，在创建用户时，系统会为每一个用户自动建立了一个与用户名同名的模式作为其默认模式，并且用户还可以用模式定义语句建立其它模式。
3）ODSCle数据库不能删除或者创建模式，而DM数据库可以删除或者创建模式。
DM8达梦数据库透明分布式数据库架构图如下
在这里插入图片描述