(1) 并行关系型方案
多个独立的关系数据库服务器,访问共享的存储资源池。
优势:采用多个关系数据库服务器、多个存储,与原有的架构相比扩展了存储和计算的能力。
劣势:计算与存储分离,数据访问存在竞争和带宽瓶颈;支持的关系数据库服务器数量有限;只能向上扩展不能横向扩展。
适用范围:适合复杂的需要事物处理的应用。
(2) Hadoop方案
有大量独立的服务器通过网络互连形成集群,每台服务器有独立的存储;
优势:计算与存储融合,支持横向扩展,有更好的扩展性;
劣势:解决数据冲突时,需要节点间协作。
适用范围:数据仓库和离线数据分析;大规模在线实时应用。
(1) 软件架构(扩展性):
关系型:扩展时需要静态停机扩展,数据需要重新分布;容错能力不存在中间结果,出错时需要重新执行查询。
Hadoop:扩展能力动态无缝扩展,自动扩展;容错能力只需要重新运行出错的子任务。
(2) 数据模型:
关系型:二元关系模型;静态数据模型。
Hadoop:非结构化或者多维MAP模式;动态可变数据模式
(3) 分析方式:
关系型:SQL查询语言
Hadoop: 广泛的数据分析,包括SQL,M/R,Rlauguage,数据挖掘&#x