hadoop的应用（摘自itpub论坛）

最新推荐文章于 2022-09-06 17:54:23 发布

jessezhang1981

最新推荐文章于 2022-09-06 17:54:23 发布

阅读量117

点赞数

分类专栏： hadoop 文章标签：大数据数据库

本文链接：https://blog.csdn.net/jessezhang1981/article/details/84022118

版权

hadoop 专栏收录该内容

36 篇文章 0 订阅

订阅专栏

在itpub的hadoop论坛中看到一则hadoop的应用说明，觉得不错，转载之。

地址:http://www.itpub.net/thread-1458086-1-1.html

在实际生产中,hadoop是怎么应用的？
1.数据是怎么进入到HADOOP的？
2.HADOOP在现在数据仓库中扮演的是一个什么样的角色？
3.hadoop是不是需要二次开发？
4.从HADOOP有什么缺点？能实现复杂的业务计算吗？

第一点：
在数据仓库中，有个很重要的组成部分叫做ETL，也就是数据的抽取，清洗，装载。
每个数据仓库都会有自己的ETL工具，我们公司目前是自己开发的一套ETL工具
目的是：从各个异构的环境中抽取数据，做简单的清洗，并同步到不同的目标中
HADOOP是我们的目标之一
拿前台网站来说，他们的数据一般存储在oracle中，我们的ETL工具通过OCI将数据从源系统中抽取出来直接落地在HDFS上
这些数据可以同步到其他目标系统，也可以直接通过MAPRED或者HIVE进行运算

第二点：
HADOOP在一些比较成熟的公司里面作为数据存储中心，数据计算中心，数据开放中心
在使用HADOOP前，我们也使用了其他的分布试的文件系统，当决定使用HADOOP后，数据全部迁移到HDFS上
以前的计算任务是在RAC或者GP上的，也会慢慢迁移到HADOOP上
数据开发是DW很重要的一个作用，计算好的数据和分析结果要产生价值就要开发给其他部门
HADOOP的HDFS和HIVE是数据开放的两件利器

第三点：
到底HADOOP需要不需要二次开发这个问题和公司的技术能力和对HADOOP定位有关系
因为二次开发后会面对个问题，就是HADOOP社区也是很活跃的，会经常有些PATCH和新的版本出来，那么我们自己开发的版本需要不需要这些PATCH，如果需要那么这些PATCH会不会和目前的版本有冲突，这需要大量的测试，工作量还是比较大的
所以建议技术能力不是太强的公司，投入不会那么大的公司，还是跟着社区跑

第四点：
HADOOP和以前的关系型数据库或者分布式的数据库差距比较大
开发人员想要转到HADOOP上是需要一段时间的
MAPRED可以实现任务复杂的应用，而且对于一些应用来说效率可能会比数据库要强很多很多，不过开发的效率比较低
HIVE是MAPRED的SQL接口，通过HIVE可以实现快速开发，但是HIVE对SQL支持有限，并且效率也不总是那么高
如果HIVE开发人员也建议学习学习MAPRED，武器多一些，打起仗来也更得心应手