大数据的概念以及hadoop集群的安装,概述

大数据的5V特点:Volume\Volocity\Variety\Value\Veracity
大数据并行化处理数据,Google2004(分而治之),hadoop产生(Doug cutting)

应用场景
    典型应用:公司运营情况
        CNZZ    数据专家
        友盟
        电商推荐系统
        广告推送系统

什么是hadoop
    hadoop项目开发了用于可靠,可扩展的分布式计算的开源软件。
    允许使用简单的编程模型跨计算机集群分布式处理大型数据集。
    它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。
    库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,
    从而在计算机集群智商提供高可用性服务,每个计算机都可能容易出现故障。

    用户可以在不了解分布式的底层细节而开发分布式程序。

    Hadoop中三个核心组件:
        分布式文件系统:HDFS    ---实现存储在多台服务器上
        分布式运算编程框架:MapReduce    ---实现在很多台机器的分布式并行计算
        分布式资源调度平台:Yarn    ---帮我们调度大量的mapreduce程序的,并且合理分配运算资料


HDFS的运行机制
    如何实现分布式存储
        用户存储数据可能被切块,再去文件的时候不用关心,HDFS解决
            namenode:记录块信息,统一管理
            datanode:存储数据的程序


    总结:机制-》用户的文件会被切块后存储在多台datanode服务器当中,并且每个文件在集群当中存放多个副本,可以自己指定副本数据。

        HDFS:对用户统一的目录,存储时会把文件切分为若干个文件块存储,在不同的datanode服务器当中。
            用户文件可以存储多个副本,以增强数据的安全性。
            用户存储的块信息存储的位置在namenode当中。


集群的准备工作
    1、关闭防火墙(进行远程连接)
        systemctl stop firewalld
        systemctl -disable firewalld

        firewall-cmd --state

    2、设置主机名(每台机器都需要改)
        vi /etc/hostname

        //需要重启生效
        reboot

        //配置映射文件
        vi /etc/hosts
            ip hostname1
            ip hostname2
            ip hostname3

        scp -r /etc/hosts ip:/etc/        (覆盖)

    3、安装jdk
        上传tar包
            alt+p

        解压tar包


        配置环境变量
            vi /etc/profile    
                export JAVA_HOME=
                export PATH=$PATH:$JAVA_HOME/bin

            注:source /etc/profile

        scp -r(递归) file ip:dir
        注意:加载环境变量

    4、免密登录
        ssh-keygen
        ssh-copy-id hostname1    //自己
        ssh-copy-id hostname2    //其他
        ssh-copy-id hostname3    //其他

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值