初入Hadoop之路

最新推荐文章于 2022-08-28 09:41:04 发布

qq_21085831

最新推荐文章于 2022-08-28 09:41:04 发布

阅读量198

点赞数

文章标签： Hadoop基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21085831/article/details/80081636

版权

读Hadoop实战摘抄笔记

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce 的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构

Hadoop采用了分布式存储方式,提高了读写速度,并扩大了存储容量采用MapReduce来整合分布式文件系统上的数据,可以保证分析和处理数据的高效.与此同时,Hadoop还采用存储冗余数据的方式保证了数据的安全性.

Hadoop中HDFS的高容错特性,以及他是基于Java语言开发的,,不限于某个操作系统.

Hadoop的优点

1.高可靠性.Hadoop按位存储和处理数据的能力值得人们信赖

2高扩展性.Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便的扩展到数以千计的节点中.

3.高效性.Hadoop能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因而处理速度非常快

4.高容错性 Hadoop能够自动保存数据的各个副本,并且能够自动将失败的任务重新分配

Core/Common:从Hadoop0.20版本开始更名为Common是为Hadoop其他子项目提供支持的常用工具,它主要包括FileSystem,RPC和串行化库.

Avro:Avro是用于数据序列化的系统.

MapReduce:是一种编程模型.用于大规模的数据集(大于1TB)的并行计算.

HDFS是一个分布式文件系统.由于HDFS具有高容错性的特点.

HDFS的设计目标:

1. 检测和快速回复硬件故障也是核心目标

2. 流式的数据访问.

3. 简化一致性模型

4. 通信协议.所有的通信协议都在TCP/IP协议之上.

Chukwa:是开源的数据收集系统,用于监控和分析大型分布式系统的数据.也昔日带了灵活且强大的工具,用于显示、监视和分析数据结果，以便更好地利用所收集的数据.

Hive最早是Facebook设计的,是一个建立在Hadoop基础之上的数据仓库,他提供了一些用了数据整理,特殊查询,和分析存储在Hadoop文件中的数据集的工具

HBase:是一个分布式的、面向列的开源数据库。主要用于随机访问，实时读写的大数据。

Pig:Pig是一个对大型数据集进行分析和评估的平台

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初入Hadoop之路

读Hadoop实战摘抄笔记Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce 的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构Hadoop采用了分布式存储方式,提高了读写速度,并扩大了存储容量采用MapReduce来整合分布式文件系统上的数据,可以保证分析和处理...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。