大数据架构面临技术集成的巨大障碍

最新推荐文章于 2022-06-09 09:04:54 发布

haboop

最新推荐文章于 2022-06-09 09:04:54 发布

阅读量926

点赞数

分类专栏：大数据书籍大数据经验大数据技术大数据资讯大数据应用大数据人生大数据教程文章标签：大数据程序员编程语言

本文链接：https://blog.csdn.net/haboop/article/details/90032748

版权

企业构建大数据架构时面临技术集成难题，选择众多技术需谨慎。Hadoop生态系统中的技术集成是一个复杂且长期的过程，需要根据组织具体需求进行定制。IT团队必须应对不断变化的技术需求和数据量增长，通过不断的调整和优化来实现架构的完善。同时，技术的多样性带来了灵活性，但也增加了集成的复杂性，需要投入大量资源和时间。尽管如此，大多数问题源于对开源软件的开发和部署流程不熟悉，随着熟悉度的提高，集成问题将逐渐缓解。

摘要由CSDN通过智能技术生成

　企业可以利用Hadoop以及所有与它相关的技术设计大数据环境，以满足其特定的需求。但把所有的技术集成在一起并不是一件容易的事。

　　IT团队寻求构建大数据架构时有大量的技术可供选择，他们可以混合搭配各种技术以满足数据处理和分析需求。但是有一个问题存在：把所有需要的技术框架组合到一起是一项艰巨的任务。

　　在不断扩展的Hadoop生态系统中，选择和部署合适的大数据技术是一个长期反复的过程，周期要以年计。除非公司管理者愿花大量财力和资源来加速推动项目。选择技术的过程中有失误判断是很常见的，一家公司的架构蓝图不一定适用于另一家组织，即便是完全相同的行业也不行。

　　Bryan Lari是美国德克萨斯州大学MD安德森癌症研究中心(位于休斯顿)研究分析主任，他说：“我经常跟人说，这不是像你在亚马逊下个订单或者从苹果商店买个东西那么简单的事。这是一件复杂的事，它需要一个过程。我们在半年或者一年之内是做不完的。这也不是可以套用公式就能应用的技术，尽管有很多案例或者用户有成功经验，但我们也可能用不同的工具来满足我们的需求。”

　　MD安德森的大数据环境集中在Hadoop集群中，在三月份的时候投入了生产环境，初步打算用来处理病人房间监视设备传输回来的重要信号数据。不过，数据湖平台还包括HBase(与Hadoop配合的NoSQL数据库)，Hive(Hadoop支持SQL的软件)，还有各种其他Apache开源技术，例如：Pig、Sqoop、Oozie和Zookeeper。此外，这家癌症治疗和研究组织还