大数据的概念以及hadoop集群的安装，概述

最新推荐文章于 2024-06-20 16:12:27 发布

领悟大数据

最新推荐文章于 2024-06-20 16:12:27 发布

阅读量226

点赞数 1

分类专栏： hadoop 文章标签： hadoop 集群安装免密操作 hdfs运行机制

本文链接：https://blog.csdn.net/weixin_42898914/article/details/84728622

版权

hadoop 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

大数据的5V特点：Volume\Volocity\Variety\Value\Veracity
大数据并行化处理数据，Google2004(分而治之)，hadoop产生(Doug cutting)

应用场景
   典型应用：公司运营情况
       CNZZ   数据专家
       友盟
       电商推荐系统
       广告推送系统

什么是hadoop
   hadoop项目开发了用于可靠，可扩展的分布式计算的开源软件。
   允许使用简单的编程模型跨计算机集群分布式处理大型数据集。
   它旨在从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储。
   库本身不是依靠硬件来提供高可用性，而是设计用于检测和处理应用程序层的故障，
   从而在计算机集群智商提供高可用性服务，每个计算机都可能容易出现故障。

用户可以在不了解分布式的底层细节而开发分布式程序。

   Hadoop中三个核心组件：
       分布式文件系统：HDFS   ---实现存储在多台服务器上
       分布式运算编程框架：MapReduce   ---实现在很多台机器的分布式并行计算
       分布式资源调度平台：Yarn   ---帮我们调度大量的mapreduce程序的，并且合理分配运算资料

HDFS的运行机制
   如何实现分布式存储
       用户存储数据可能被切块，再去文件的时候不用关心，HDFS解决
           namenode:记录块信息，统一管理
           datanode：存储数据的程序

总结：机制-》用户的文件会被切块后存储在多台datanode服务器当中，并且每个文件在集群当中存放多个副本，可以自己指定副本数据。

       HDFS：对用户统一的目录，存储时会把文件切分为若干个文件块存储，在不同的datanode服务器当中。
           用户文件可以存储多个副本，以增强数据的安全性。
           用户存储的块信息存储的位置在namenode当中。

集群的准备工作
   1、关闭防火墙（进行远程连接）
       systemctl stop firewalld
       systemctl -disable firewalld

firewall-cmd --state

2、设置主机名(每台机器都需要改)
vi /etc/hostname

//需要重启生效
reboot

       //配置映射文件
       vi /etc/hosts
           ip hostname1
           ip hostname2
           ip hostname3

scp -r /etc/hosts ip:/etc/ (覆盖)

   3、安装jdk
       上传tar包
           alt+p

解压tar包

       配置环境变量
           vi /etc/profile
               export JAVA_HOME=
               export PATH=$PATH:$JAVA_HOME/bin

注：source /etc/profile

scp -r（递归） file ip:dir
注意：加载环境变量

   4、免密登录
       ssh-keygen
       ssh-copy-id hostname1   //自己
       ssh-copy-id hostname2   //其他
       ssh-copy-id hostname3   //其他

领悟大数据

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据的概念以及hadoop集群的安装，概述

大数据的5V特点：Volume\Volocity\Variety\Value\Veracity大数据并行化处理数据，Google2004(分而治之)，hadoop产生(Doug cutting)应用场景典型应用：公司运营情况 CNZZ 数据专家友盟电商推荐系统广告推送系统什么是hadoop ha...
复制链接

扫一扫

专栏目录