大数据-2:Hadoop生态以及HDFS部署

本文介绍了Hadoop的起源、主要组件及生态,包括HDFS、MapReduce和Hadoop的版本。详细阐述了单机版Hadoop的安装过程,并逐步讲解了Hadoop运行的三种模式:本地模式、伪分布式和全分布式集群的配置与启动。在全分布式集群部署中,通过NFS实现不同节点间的文件同步,确保集群数据一致性。
摘要由CSDN通过智能技术生成

1. Haoop简介

MFS作为分布式文件系统,有很强的灵活扩展性,常用于网盘等;但做数据挖掘,分析用户数据时,常用Hadoop生态下的HDFS文件系统;

  • HDFS起源于GFS,GFS为Google的分布式文件系统Google File System
  • MapReduce:Google的MapReduce开源分布式并行计算框架,演变为Hadoop MapReduce
  • BigTable:一个大型的分布式数据库,演变为Hbase

Hadoop包含3各主流版本:

  • Apache基金会Hadoop,原生版本,需要考虑不同软件兼容性,无UI界面
  • Cloudera版本,简称CDH
  • Hortonworks版本,简称HDP

Hadoop的框架最核心的设计就是:HDFS和MapReduce

  • HDFS为海量的数据提供了存储
  • MapReduce为海量的数据提供了计算

大数据技术生态体系:
在这里插入图片描述

Hadoop框架包括以下四个模块:

  • Hadoop Common:这些时其他Hadoop模块所需的Java库和实用程序。这些库提供文件系统和操作系统级抽象,并包含启动Hadoop所需的Java文件和脚本。
  • Hadoop YARN:这是一个用于作业调度和集群资源管理的框架
  • Hadoop DIstributed File System(HDFS):分布式文件系统,提供对应用程序数据的高吞吐量访问
  • Hadoop MapReduce:这是基于YARN的用于并行处理大数据集的系统

2. 安装单机版Hadoop

Apache版本官网
新建一个虚拟机server11
新建一个用户hadoop并给予密码:useradd hadoopecho ***|passwd --stdin hadoop
首先在server11上准备安装文件:scp hadoop-3.2.1.tar.gz jdk-8u181-linux-x64.tar.gz server11:
放在hadoop主目录下并修改拥有者为hadoop,切换hadoop用户:
解压:tar zxf jdk-8u181-linux-x64.tar.gz
解压完成后的为二进制程序,可以直接调用,做软链接至java:ln -s jdk1.8.0_181/ java
请添加图片描述
同样解压软链接:tar zxf hadoo

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值