hadoop yarn 获取日志_Hadoop基础知识总结

本文介绍了Hadoop的基础知识,包括HDFS的扩展性、容错性和多副本存储机制,YARN的资源管理和调度,以及MapReduce的分布式计算流程。此外,还探讨了Hadoop的优势和生态系统中的其他组件,如Hive、Mahout和Zookeeper等。
摘要由CSDN通过智能技术生成

本篇讲解Hadoop相关的背景知识,涉及一些常见的概念,组件等,是一篇科普性文章,欢迎食用和交流。

Hadoop概述

Hadoop这个单词本身并没有什么特殊的含义,而只是其作者Doug Cutting孩子的一个棕黄色的大象玩具的名字。

Hadoop是一个高可靠的(reliable),规模可扩展的(scalable),分布式(distributed computing)的开源软件框架。它使我们能用一种简单的编程模型来处理存储于集群上的大数据集。

Hadoop是Apache基金会的一个开源项目,是一个提供了分布式存储和分布式计算功能的基础架构平台。可以应用于企业中的数据存储,日志分析,商业智能,数据挖掘等。

hadoop核心组件

1. hadoop包含的模块:

  • Hadoop common:提供一些通用的功能支持其他hadoop模块。

  • Hadoop Distributed File System:即分布式文件系统,简称HDFS。主要用来做数据存储,并提供对应用数据高吞吐量的访问。

  • Hadoop Yarn:用于作业调度和集群资源管理的框架。

  • Hadoop MapReduce:基于yarn的,能用来并行处理大数据集的计算框架。

2. HDFS:
HDFS是谷歌GFS的一个开源实现,具有扩展性容错性海量数据存储的特点:

  • 扩展性,主要指很容易就可以在当前的集群上增加一台或者多台机器,扩展计算资源。

  • 容错性,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值