hadoopDB 数据仓库 简介

HadoopDB是由耶鲁大学开发的项目,旨在结合Hadoop的容错性和异构环境运行能力与并行RDBMS的高性能,尤其是针对JOIN和聚合操作。它通过在Map阶段利用并行数据库系统处理SQL,然后在Reduce阶段读取结果,提升数据仓库的性能。HadoopDB包括SMS Planner进行任务优化,Catalog存储数据库信息,Data Loader负责数据分区,Database Connector传递信息,以及Paralled Database存储数据。对于特定的SQL查询,HadoopDB能够在并行数据库中直接执行,提高效率。
摘要由CSDN通过智能技术生成

读了两篇关于hadoopDB数据仓库的论文之后,写一点关于hadoopDB的简介:

hadoopDB是耶鲁大学的一个大学项目, 目的是为了构建一个数据仓库的工具。

HadoopDB 结合了hadoop 和paralled RDBMS,结合两个技术的优点。

HadoopDB is to connect multiple single_node database systemusing Hadoop as the task coordinator and network communication layer.

Hadoop的优点:fault  toleranceand ability to operate in a heterogeneous environment properties.

                缺点: performance,特别是对于join和aggregation操作。

Paralled RDBMS的优点: performance, 特别是对于join和aggregation的优化 处理。

                缺点:就是hadoop的优点。

 

原来hadoop + hive就是一套完整数据仓库工具,hive的作用是把用户输入的类SQL语句翻译成hadoop能够执行一些操作-mapreduce的任务tree(包含多个mapreduce的操作),只有由hadoop去执行。但是这些操作都是基于google自己的HDFS,所以在performance上并不是理想。同类的产品还有yahoo的pig, Microsoft的SCOPE。

 

HadoopDB的最终想法就是在map阶段把SQL语句尽量的让paralledRDBMS 去执行,尽量发挥并行数据库系统的优势,之后把每个node的输出序列化到temp文件中,

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值