hadoop概述

1:什么是hadoop
    官网上关于hadoop的解释是:
    The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.
    >>开源的
    >>可靠的
        可以及时进行数据备份
        大数据损坏后,能及时恢复
    >>可扩展性
        对于大的集群,机器的增加或者减少不会影响数据的计算
    >>分布式计算
        对于一个任务,我们可以对它进行瓜分
2:解决的问题
    >>HDFS的分布式文件系统,解决了海量数据的存储
        特点:
            存海量数据
            动态添加机器,并不会影响整个分布式文件系统的存储
            备份机制来快速回复损坏的数据文件
    >>mapreduce 解决了海量数据分析
        特点:    
            海量
        核心理念--分而治之
            将海量的数据切片,分发到多个机器节点上,
            在各个机器上对数据运行同样的程序,并输出对应的结果
            最后人工将各个机器上的结果合并,再统计、分析
    >>yarn 解决集群资源的管理和任务调度
        特点:    
            资源(CPU,内存)管理,对于集群中的资源,使用了多少,剩余了多少。
            任务调度,通过资源管理,来合理的安排任务调度

3.特点:
        >>扩容能力,
        >>成本低
        >>高效率
        >>可靠性
4.背景
        三大论文
        GFS        -HDFS
        mapreduce
        bigtable    -HBASE
5.应用场景
        >>日志分析
        >>推荐系统
        >>路况信息
        >>天气预报
6.hadoop生态圈
7.hadoop的核心内容
    官网:
    The project includes these modules:
        Hadoop Common: The common utilities that support the other Hadoop modules.
        Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
        Hadoop YARN: A framework for job scheduling and cluster resource management.
        Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

Hadoop是一个开源的分布式计算框架,它允许用户在大量的计算机集群上存储和处理大量数据。Hadoop的核心组件包括HDFS(Hadoop Distributed FileSystem)和MapReduce。HDFS是Hadoop的分布式文件系统,它将数据存储在大量的磁盘上,而不是单个计算机上。MapReduce是一种编程模型,用于处理和生成大数据集。 Hadoop的基本框架包括以下几个部分: 1. HDFS:Hadoop分布式文件系统,负责存储和管理大量数据。 2. MapReduce:一种编程模型,用于处理和生成大数据集。 3. YARN:Yet Another Resource Negotiator,负责资源管理和任务调度。 4. Hadoop Common:Hadoop的共享库,包含一些通用的工具和库。 5. Hadoop Auth:Hadoop的身份验证服务,负责用户认证和授权。 6. Hadoop HDFS Java API:Hadoop HDFS的Java接口,用于编写Java程序操作HDFS。 Hadoop的环境搭建主要包括以下步骤: 1. 安装Java环境:Hadoop是基于Java开发的,所以首先需要安装Java环境。 2. 下载并解压Hadoop:从Hadoop官网下载最新版本的Hadoop,然后解压到本地目录。 3. 配置Hadoop环境:编辑Hadoop的配置文件,设置Hadoop的环境变量。 4. 初始化HDFS:使用Hadoop的启动脚本初始化HDFS。 5. 启动Hadoop:启动Hadoop的各个组件,如HDFS、YARN等。 6. 测试Hadoop:运行一个简单的MapReduce任务,检查Hadoop是否正常运行。<span class="em">1</span><span class="em">2</span><span class="em">3</span><span class="em">4</span>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值