大数据核心技术概论

最新推荐文章于 2024-09-16 11:16:36 发布

不要em0啦

最新推荐文章于 2024-09-16 11:16:36 发布

阅读量852

点赞数 21

分类专栏：大数据文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2201_75642955/article/details/136419219

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

大数据核心技术概述

大数据基石三大论文：GFS（Hadoop HDFS）、BigTable（Apache HBase）、MapReduce（Hadoop MapReduce）。

搜索引擎的核心任务：一是数据采集，也就是网页的爬取；二是数据搜索，也就是索引的构建。数据采集离不开存储，索引的构建也需要大量计算，所以存储容器和计算能力贯穿搜索引擎的整个更迭过程。

Google在 2003/2004/2006 年相继发布谷歌分布式文件系统 GFS(被Hadoop HDFS借鉴)、大数据分布式计算框架 MapReduce（被Hadoop MapReduce借鉴）、大数据 NoSQL数据库 BigTable (被Apache Hbase借鉴)，这三篇论文奠定了大数据技术的基石。

大数据基石三大论文——GFS

GFS解决复杂工程问题的设计细节如下：

简化系统元信息：Master 中维持了两个重要的映射，分别是文件路径到逻辑数据块，逻辑块与其多副本之间的关系。
较大的数据块：选择了当时看来相当大的 64M 作为数据存储的基本单位，以此来减少元信息。
放宽的一致性：允许多副本间内容不一致来简化实现、提高性能，通过读校验来保证损坏数据对用户不可见。
高效副本同步：在多副本同步时分离控制流和数据流，利用网络拓扑提高同步效率。
租约分散压力：Master 通过租约将部分权力下放给某个 Chunkserver ，负责某个块的多副本间的读写控制。
追加并发优化：多客户端对同一文件进行并发追加，保证数据原子性及At Least Once的语义。
快速备份支持：使用 COW（Copy on Write）策略实现快照操作，并通过块的引用计数来进行写时拷贝。
逐节点锁控制：对于每个操作，需要沿着文件路径逐节点获取读锁，叶子节点获取读锁或者写锁，当然文件路径会进行前缀压缩。
异步垃圾回收：将数据删除与其他一些主节点的维护操作（损坏块清除，过期数据块移除）统一起来，成为一个定期过程。
版本号标记：帮助客户端识别过期数据。
数据块校验和：针对每 64KB 的小块打上 32 bit 的校验和。

大数据基石三大论文——BigTable

大数据基石三大论文——MapReduce

大数据技术体系——以Hadoop为例

Hadoop1.0

Hadoop2.0

Hadoop的优势

易用性（低成本）：Hadoop开源，软件使用成本低；Hadoop可以运行在廉价机器构成的大型集群上，硬件使用成本低。
高可靠性（高容错性）：Hadoop能够保存数据的多个副本，自动检测处理节点失败的情况，并能够自动重新分配失败的任务。
高效性：Hadoop能够在节点之间动态的移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高扩展性：Hadoop在计算机集群上分配数据并完成计算任务，计算机集群中可以增设节点。

关注

21
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

不要em0啦 CSDN认证博客专家 CSDN认证企业博客

码龄2年

104: 原创

2万+: 周排名

1万+: 总排名

9万+: 访问

: 等级

2397: 积分

2608: 粉丝

1361: 获赞

15: 评论

992: 收藏

私信

关注

热门文章

分类专栏

最新评论

联想笔记本电脑加装内存条并启用内存双通道实战
不要em0啦: 如果电脑不支持更高的频率就没必要买更好的，买了也跑不满
联想笔记本电脑加装内存条并启用内存双通道实战
Caster_Z: 对内存频率，时钟之类有要求吗？
OpenCV图像滤波、边缘检测
0仰望星空007: 大佬的文章让我对这领域的技术问题有了更深入的了解，尤其是大佬提到的那些“坑点”，我相信能够在实际应用中避免或解决很多问题。谢谢大佬的分享，期待大佬的更多精彩文章，让我们共同学习、进步。非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
YOLO——AI算法的中流砥柱（二）
CSDN-Ada助手: 恭喜作者继续分享关于YOLO和AI算法的知识，文章内容相当丰富和深入。希望作者在接下来的创作中，可以进一步深挖YOLO算法的应用场景和优化方法，让读者更加全面地了解这一领域的知识。期待作者的下一篇文章！
Chat With RTX——AI也能单机用？
CSDN-Ada助手: 恭喜您写了第14篇博客！标题“Chat With RTX——AI也能单机用？”真的很吸引人，对AI在单机应用方面的探索让人十分好奇。希望您能继续保持创作的热情，不断探索新的领域，或许可以考虑深入研究AI在其他方面的应用，比如医疗、教育等领域，给读者带来更多新鲜的内容。期待您的下一篇作品！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。