大数据核心技术概论

大数据核心技术概述

大数据基石三大论文:GFS(Hadoop HDFS)、BigTable(Apache HBase)、MapReduce(Hadoop MapReduce)。

搜索引擎的核心任务:一是数据采集,也就是网页的爬取;二是数据搜索,也就是索引的构建。 数据采集离不开存储,索引的构建也需要大量计算,所以存储容器和计算能力贯穿搜索引擎的整个更迭过程。

Google在 2003/2004/2006 年相继发布谷歌分布式文件系统 GFS(被Hadoop HDFS借鉴)、大数据分布式计算框架 MapReduce(被Hadoop MapReduce借鉴)、大数据 NoSQL数据库 BigTable (被Apache Hbase借鉴),这三篇论文奠定了大数据技术的基石。

大数据基石三大论文——GFS

 GFS解决复杂工程问题的设计细节如下:

  • 简化系统元信息:Master 中维持了两个重要的映射,分别是文件路径到逻辑数据块,逻辑块与其多副本之间的关系。
  • 较大的数据块:选择了当时看来相当大的 64M 作为数据存储的基本单位,以此来减少元信息。
  • 放宽的一致性:允许多副本间内容不一致来简化实现、提高性能,通过读校验来保证损坏数据对用户不可见。
  • 高效副本同步:在多副本同步时分离控制流和数据流,利用网络拓扑提高同步效率。
  • 租约分散压力:Master 通过租约将部分权力下放给某个 Chunkserver ,负责某个块的多副本间的读写控制。
  • 追加并发优化:多客户端对同一文件进行并发追加,保证数据原子性及At Least Once的语义。
  • 快速备份支持:使用 COW(Copy on Write) 策略实现快照操作,并通过块的引用计数来进行写时拷贝。
  • 逐节点锁控制:对于每个操作,需要沿着文件路径逐节点获取读锁,叶子节点获取读锁或者写锁,当然文件路径会进行前缀压缩。
  • 异步垃圾回收:将数据删除与其他一些主节点的维护操作(损坏块清除,过期数据块移除)统一起来,成为一个定期过程。
  • 版本号标记:帮助客户端识别过期数据。
  • 数据块校验和:针对每 64KB 的小块打上 32 bit 的校验和。

大数据基石三大论文——BigTable

 

大数据基石三大论文——MapReduce 

大数据技术体系——以Hadoop为例

Hadoop1.0

Hadoop2.0

Hadoop的优势 

  • 易用性(低成本):Hadoop开源,软件使用成本低;Hadoop可以运行在廉价机器构成的大型集群上,硬件使用成本低。
  • 高可靠性(高容错性):Hadoop能够保存数据的多个副本,自动检测处理节点失败的情况,并能够自动重新分配失败的任务。
  • 高效性:Hadoop能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  • 高扩展性:Hadoop在计算机集群上分配数据并完成计算任务,计算机集群中可以增设节点。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值