大数据存储:扩展Hadoop的十大要点

本文探讨了扩展Hadoop大数据存储的关键要点,包括数据局部性、分布式存储、避免控制器阻塞点、重复数据删除和压缩等。强调了在处理大数据时,应避免集中式存储带来的性能瓶颈,利用软件定义存储实现弹性扩展,并通过整合Hadoop发行版和虚拟化处理提升效率。此外,文中还提到了构建弹性数据湖、集成分析、处理大视频数据等挑战及解决方案。
摘要由CSDN通过智能技术生成

数据局部性是指确保大数据集存储在执行分析任务的计算资源附近。对于Hadoop来说,这就意味着管理数据节点(DataNode),而数据节点为MapReduce拥有足够好的性能提供了存储资源。
20世纪90年代,每台应用服务器往往都拥有直接连接存储(DAS)。创建存储区域网络(SAN),是为了提供共享的存储池,以获得更大的规模和更高的效率。Hadoop逆转了这股潮流,让DAS重新流行起来。每个Hadoop集群都有自己的、横向扩展直接连接存储。它有助于Hadoop管理数据局部性,但是牺牲了共享存储的规模和效率。因此,如果你有Hadoop发行版的多个实例,就会有多个这种横向扩展的存储孤岛。

Hedvig公司的首席执行官兼创始人阿维纳什·拉克希曼(Avinash Lakshman)说:“我们遇到的最大挑战就是,兼顾数据局部性与规模和效率。”

数据局部性是指确保大数据集存储在执行分析任务的计算资源附近。对于Hadoop来说,这就意味着管理数据节点(DataNode),而数据节点为MapReduce拥有足够好的性能提供了存储资源。它可以高效地工作,但是导致了另一个操作问题:大数据存储孤岛。本文介绍的这些要点有助于管理Hadoop环境中的大数据存储。

1. 分散式存储

集中式存储作为传统架构已有一段时间。但是大数据其实并不适合集中存储架构。Infogix的金融服务行业(FSI)战略和运营经理森希尔·拉贾曼尼坎(Senthil Rajamanickam)表示,Hadoop旨在让计算资源更接近数据,同时充分利用HDFS文件系统的大规模横向扩展功能。

然而,解决Hadoop管理自有数据的低效问题的常见方法,一向是将Hadoop数据存储在SAN上。而这带来了性能和规模方面的一系列瓶颈。现在,你的所有数据都通过集中式SAN控制器来处理,而控制器破坏了Hadoop的分布式、并行化的特性。你需要为多个数据节点管

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值