HadoopDB(耶鲁大学的老师弄的基于hive+hadoop的东东)

最新推荐文章于 2023-05-09 09:18:41 发布

ayheos

最新推荐文章于 2023-05-09 09:18:41 发布

阅读量3.3k

点赞数

分类专栏： Hadoop云平台文章标签： hadoop 数据库 postgresql 工作 sql 任务

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ayheos/article/details/6228372

版权

Hadoop云平台专栏收录该内容

4 篇文章 0 订阅

订阅专栏

前段时间学习hadoop时，在网上看到了HadoopDB（http://db.cs.yale.edu/hadoopdb/hadoopdb.html），学习了下，觉得还是有些价值，下面是我对HadoopDB的一些理解。

HadoopDB介绍

1：架构（三部分）

Hive + Hadoop + StoreSystem

2：各部分解释

对Hive做以下改造

原始Hive实现：

sql->parse->execution plan->生成map/reduce任务

修改后Hive实现：

sql->parse->execution plan->重新生成step sql->重新生成map/reduce任务（修改过，主要是对inputformat作修改，支持对关系型数据库的查询）

hadoop则直接使用

StoreSystem被改造为从关系数据库postgresql中取数据（当然，也可以改造成从任何存储系统里取数据，包括最原始hive从dfs中取数据）

3：HadoopDB总体实现说明

数据分散工作

首先把文本文件里的数据导入至关系型数据库里。方式是这样的，由用户的配置文件（节点数，数据库名，表名，冗性数）生成最终配置文件，内容主要是各节点上将要配备

的数据库，包括库名，jdbc连接串，用户名，密码。接着开始导入数据，实现思想是这样的，就是把一完整的文本文件先hash成多份，然后又把每一份hash多份至同一个节点上，对每一节点上的多个分散文件都以不同库名存入数据库中（目的是为了map/reduce生成多份splits）。数据分散的工作就做完了。

hive工作

parse sql后生成execution plan,循环对每个step重新得到sql并存至conf中，以备后续map/reduce在recordreader中作为query string作数据库查询操作

map/reduce工作

所有点节上的每一个不同的数据库都会同时有一个task执行，每一个split就对应一个分散后的数据库，然后在recordreader里作数据库的连接及查询操作。

4：HadoopDB优缺点

优点：

结合hive对sql强大的支持并直接生成map/reduce任务，不需要再手动编写map/reduce程序。利用关系数据库查数据则又是利用单节点的性能优势。其它就是hadoop所具有的一切优势了。

缺点：

如果不想手动编写map/reduce程序，则只能查询的sql语句的数据来源不能来自多张表，原因是因为他目前只相当对一个数据库的多个分块并行查询，所以不能做到多分块的数据关系处理。当然为了实现多表join,可手动改造inputformat以实现。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HadoopDB(耶鲁大学的老师弄的基于hive+hadoop的东东)

前段时间学习hadoop时，在网上看到了HadoopDB（http://db.cs.yale.edu/hadoopdb/hadoopdb.html），学习了下，觉得还是有些价值，下面是我对HadoopDB的一些理解。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。