学好大数据，你必须知道的知识！

最新推荐文章于 2020-08-24 21:12:36 发布

年少有为_赵同学

最新推荐文章于 2020-08-24 21:12:36 发布

阅读量200

点赞数 1

本文链接：https://blog.csdn.net/qq947089960/article/details/81511681

版权

学好大数据，你需要掌握的基础

   java SE
   mysql
   linux

linux环境的搭建

（1）创建普通用户
如： huadian/huadian
（2）配置ip

192.168.59.160
（3）主机名：

bigdata-hpsk01.huadian.com
（4）修改映射
192.168.59.160

bigdata-hpsk01.huadian.com
（5）修改权限

配置普通用户huadain,具有root的权限

（6）关闭防火墙、开机不启动、selinux

大数据按照功能来划分：

   海量数据存储：HDFS、HBASE数据库、hive
   海量数据分析：MapReduce、spark、SQL

hadoop

Hadoop起源：google的三篇论文
   GFS -》开源版本 Hadoop HDFS
   MapReduce -》Hadoop MapReduce
   BigTable ->开源HBase

MapReduce的思想
   分而治之
   主要思想是将任务分解然后在多台处理能力较弱的计算节点中同时处理，然后将结果合并从而完成大数据处理。

hadoop版本

hadoop 1.X:
   Common
   HDFS
   MapReduce

Hadoop 2.X 4个组件：
   Common
   HDFS
   YARN
   MapReduce

hadoop介绍：

大数据绝大多数框架，都是Apache顶级项目

Hadoop官网：
hadoop.apache.org

   分布式：
       相对于集中式
       需要多台机器，协调完成任务

   架构：
       主节点Master
           老大，管理者
       从节点slave
           从节点,从属，奴隶，被管理者

HDFS:

全名：Hadoop Distributed File System
       主节点：nameNode
           一个，活跃的一个（active），有一个备胎（standby）
           作用：决定数据存储到那个DataNode上

       从节点：DataNode --多个
           作用：存储数据，管理数据

   MapReduce：

       分而治之
       将海量的数据划分为多部分，对每一部分进行单独的处理，
       最后对处理的结果进行合并
       - map       map task
           单独处理每一部分的数据，
           对于Java oop,就是对应一个方法
       - rdudce    reduce task
           合并所有map taskd 结果

   YARN：

分布式资源管理框架
       负责管理集群各个机器的资源（CPU、memory），
       并且合理调度分配给各个程序使用（MapReduce程序）
       主节点：ResourceManager
           作用：管理集群的资源
       从节点：NadeManager
           作用：管理当前NadeManager所在的节点



   总结：
       Hadoop框架的安装部署，
           都是属于JAVA进程，启动了JVM进程，运行服务
       Hdfs:存储数据，为分析提供数据
           NameNode/dataNode
       Yarn:提供程序运行的资源
           ResouceManager/NodeManager

年少有为_赵同学

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学好大数据，你必须知道的知识！

学好大数据，你需要掌握的基础 java SE mysql linux linux环境的搭建（1）创建普通用户如： huadian/huadian （2）配置ip192.168.59.160 （3）主机名：bigdata-hpsk01.huadian.com （4）修改映射 192.168....
复制链接

扫一扫