大数据认知(一)之为什么使用Hadoop生态系统处理大数据而不是高性能关系型数据库

本文探讨了为何选择Hadoop生态系统处理大数据而非高性能关系型数据库。原因包括磁盘读写速度瓶颈、分布式处理的效率提升、扩展性和成本效益,以及针对大数据特性的优化。Hadoop通过HDFS和MapReduce提供流式数据处理,同时,HBase等组件满足特定场景需求,使得Hadoop在大数据领域展现出更强的适用性和发展活力。
摘要由CSDN通过智能技术生成

为什么使用Hadoop生态系统处理大数据而不是高性能关系型数据库

    面对这样的问题,不知道大家会什么样的思考,建议大家先思考一下然后带着自己的答案,在来看看我的看法。当然,这只是我个人的见解并非绝对的标准,其实这也没有一个固定的答案。

     在设计使用分布式Hadoop生态系统,如使用HDFS进行冗余、高容错地存储大数据、使用MapReduce分布式并行离线处理大数据等。而没有使用高效性能的关系型数据库,尽管关系型数据库可以快速处理用户事务数据,可以实现较为复杂的表间关联操作等。首先,是因为考虑磁盘瓶颈的原因,磁盘读写最大的瓶颈就是处理速度,如今的磁盘一般可能在100MB/S或者可能再好一些,但是就是这样的读取速度,如果要读取1TB的数据大约要2.5小时。那么面对如今动辄几百TB,有时甚至是更加庞大的PB级数据(随着数据量增大,更加大级也必然到来)。因为磁盘是寻址读取方式,而且通常是要读取所有的数据才能进行操作,可想如果是几百TB的数据,那么可能就读取就需要几百上千个小时。那么如果能把数据分散在多台机器上并行读取那么理论上其速度必然是大幅度提升,如1TB存放在100个磁盘上,那么每个存放10GB的数据,读取完1TB数据大约需要100S。而且HDFS提供的是流式数据处理,也就是数据读取部分即可处理而并非读取所有数据。可能会问这样怎么对数据做整体操作,这个问题被考虑在MapReduce框架中,因为MapReduce计算框架

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值