hadoop的应用(摘自itpub论坛)

在itpub的hadoop论坛中看到一则hadoop的应用说明,觉得不错,转载之。

地址:http://www.itpub.net/thread-1458086-1-1.html

 

在实际生产中,hadoop是怎么应用的?
1.数据是怎么进入到HADOOP的?
2.HADOOP在现在数据仓库中扮演的是一个什么样的角色?
3.hadoop是不是需要二次开发?
4.从HADOOP有什么缺点?能实现复杂的业务计算吗?


第一点:
在数据仓库中,有个很重要的组成部分叫做ETL,也就是数据的抽取,清洗,装载。
每个数据仓库都会有自己的ETL工具,我们公司目前是自己开发的一套ETL工具
目的是:从各个异构的环境中抽取数据,做简单的清洗,并同步到不同的目标中
HADOOP是我们的目标之一
拿前台网站来说,他们的数据一般存储在oracle中,我们的ETL工具通过OCI将数据从源系统中抽取出来直接落地在HDFS上
这些数据可以同步到其他目标系统,也可以直接通过MAPRED或者HIVE进行运算


第二点:
HADOOP在一些比较成熟的公司里面作为数据存储中心,数据计算中心,数据开放中心
在使用HADOOP前,我们也使用了其他的分布试的文件系统,当决定使用HADOOP后,数据全部迁移到HDFS上
以前的计算任务是在RAC或者GP上的,也会慢慢迁移到HADOOP上
数据开发是DW很重要的一个作用,计算好的数据和分析结果要产生价值就要开发给其他部门
HADOOP的HDFS和HIVE是数据开放的两件利器


第三点:
到底HADOOP需要不需要二次开发这个问题和公司的技术能力和对HADOOP定位有关系
因为二次开发后会面对个问题,就是HADOOP社区也是很活跃的,会经常有些PATCH和新的版本出来,那么我们自己开发的版本需要不需要这些PATCH,如果需要那么这些PATCH会不会和目前的版本有冲突,这需要大量的测试,工作量还是比较大的
所以建议技术能力不是太强的公司,投入不会那么大的公司,还是跟着社区跑


第四点:
HADOOP和以前的关系型数据库或者分布式的数据库差距比较大
开发人员想要转到HADOOP上是需要一段时间的
MAPRED可以实现任务复杂的应用,而且对于一些应用来说效率可能会比数据库要强很多很多,不过开发的效率比较低
HIVE是MAPRED的SQL接口,通过HIVE可以实现快速开发,但是HIVE对SQL支持有限,并且效率也不总是那么高
如果HIVE开发人员也建议学习学习MAPRED,武器多一些,打起仗来也更得心应手

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值