大数据离线-Hadoop入门(上)

本文主要介绍了大数据离线处理框架Hadoop的基础知识,包括Hadoop的介绍、发展历史、特点以及国内外的应用情况。Hadoop是Apache的一个开源框架,由HDFS、YARN和MapReduce核心组件构成,其特点是扩容能力强、成本低、效率高和可靠性强。Hadoop在互联网领域广泛应用,如Yahoo、Facebook和BAT等公司。此外,Hadoop也被其他行业如金融、证券、交通和电信行业用于数据分析。
摘要由CSDN通过智能技术生成

本次主要介绍大数据离线阶段的Hadoop入门,分为上下两篇。

  • 上篇的内容为Hadoop简介,历史,特性,应用四个模块。
  • 下篇的内容为hadoop的集群搭建,集群启动,入门初试三部分。

Hadoop介绍

一般我们讲的Hadoop分为狭义和广义两部分

  • 狭义上讲
    Hadoop 指 Apache 这款开源框架
    这里写图片描述
    Hadoop 是 Apache 旗下的一个用 java 语言实现开源软件框架, 是一个开发和运行处理大规模数据的软件平台。 允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。它的核心组件有:

    1. HDFS(分布式文件系统):解决海量数据存储
    2. YARN(作业调度和集群资源管理的框架):解决资源任务调度
    3. MAPREDUCE(分布式运算编程框架): 解决海量数据计算
  • 广义上讲
    Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈。
    这里写图片描述

当下的 Hadoop 已经成长为一个庞大的体系,随着生态系统的成长,新出现的项目越来越多,其中不乏一些非 Apache 主管的项

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值