大数据技术基础笔记2 大数据处理架构Hadoop

2.1 概述

• Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
• Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中
• Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce
• Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力
• 几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几方面的特性:
• 高可靠性
• 高效性
• 高可扩展性
• 高容错性
• 成本低
• 运行在Linux平台上
• 支持多种编程语言

Hadoop在企业中的应用架构
在这里插入图片描述

2.2 Hadoop项目结构

Hadoop的项目结构不断丰富发展,已经形成一个丰富的Hadoop生态系统
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

2.3 Hadoop的安装与使用

Hadoop安装之前的预备知识
• 关于Linux的一些基础知识
– Shell:是指“提供使用者使用界面”的软件(命令解析器),类似于DOS下的command和后来的cmd.exe。
– sudo命令:管理员可以授权给一些普通用户去执行一些需要root权限执行的操作。当使用sudo命令时,就需要输入您当前用户的密码
– 输入密码:在Linux的终端中输入密码,终端是不会显示当前输入的密码
– 输入法中英文切换:linux中英文的切换方式是使用键盘“shift”键来切换,顶部菜单有输入法按钮切换。
– Ubuntu终端复制粘贴:在Ubuntu终端窗口中,复制粘贴的快捷键需要加上 shift,即粘贴是ctrl+shift+v
• Hadoop安装方式
– 单机模式:只在一台机器上运行,存储是采用本地文件系统,没有采用分布式文件系统HDFS;
– 伪分布式模式:存储采用分布式文件系统HDFS,但是,HDFS的名称节点和数据节点都在同一台机器上;
– 分布式模式:存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。

安装Linux虚拟机
• 材料和工具
– 1、下载VirtualBox虚拟机软件
– https://download.virtualbox.org/virtualbox/6.1.4/VirtualBox-6.1.4-136177-Win.exe
– 2. 下载Ubuntu LTS 16.04(或18.04) ISO映像文件
– Ubuntu LTS 16.04下载:https://www.ubuntu.org.cn/download/ubuntu-kylin
– Ubuntu LTS 18.04下载:https://ubuntu.com/download/desktop

• Hadoop基本安装配置主要包括以下几个步骤:
– 创建Hadoop用户
– SSH登录权限设置
– 安装Java环境
– 单机安装配置
– 伪分布式安装配置

创建Hadoop用户
– 如果安装 Ubuntu 的时候不是用的 “hadoop” 用户,那么需要增加一个名为 hadoop 的用户
– 首先按 ctrl+alt+t 打开终端窗口,输入如下命令创建新用户 :
在这里插入图片描述

– 接着使用如下命令设置密码,可简单设置为 hadoop,按提示输入两次密码:
在这里插入图片描述

– 可为 hadoop 用户增加管理员权限,方便部署,避免一些对新手来说比较棘手的权限问题:
在这里插入图片描述

SSH登录权限设置
• SSH是什么?
– Secure Shell 的缩写,是建立在应用层和传输层基础上的安全协议。SSH 是目前较可靠、专为远程登录会话和其他网络服务提供安全性的协议。
– 利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。SSH最初是UNIX系统上的一个程序,后来又迅速扩展到其他操作平台。
– SSH是由客户端和服务端的软件组成,服务端是一个守护进程(daemon),它在后台运行并响应来自客户端的连接请求,客户端包含ssh程序以及像scp(远程拷贝)、slogin(远程登陆)、sftp(安全文件传输)等其他的应用程序
• 配置SSH的原因:
– Hadoop名称节点(NameNode)需要启动集群中所有机器的Hadoop守护进程,这个过程需要通过SSH登录来实现。Hadoop并没有提供SSH输入密码登录的形式,因此,为了能够顺利登录每台机器,需要将所有机器配置好,从而让“名称节点可以无密码登录它们”

安装Java环境
• Java环境可选择Oracle的JDK,或是OpenJDK
• 建议采用手工方式安装Java环境
– 具体请参考网络教程:http://dblab.xmu.edu.cn/blog/2441-2/
– 到Java官网下载安装文件jdk-8u162-linux-x64.tar.gz
– 在Linux命令行界面中,执行如下Shell命令(注意:当前登录用户名是hadoop:)

在这里插入图片描述
• 下面继续执行如下命令,设置环境变量:
在这里插入图片描述请在这个文件的开头位置,添加如下几行内容,设置环境变量:
在这里插入图片描述继续执行如下命令让.bashrc文件的配置立即生效:
在这里插入图片描述• 这时,可以使用如下命令查看是否安装成功:
在这里插入图片描述
如果能够在屏幕上返回如下信息,则说明安装成功:
在这里插入图片描述
• 关于三种Shell命令方式的区别:
– 1. hadoop fs
– 2. hadoop dfs
– 3. hdfs dfs
– hadoop fs适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统
– hadoop dfs只能适用于HDFS文件系统
– hdfs dfs跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统

2.4 Hadoop集群

• Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduce:
• (1)从磁盘或从网络读取数据,即IO密集工作;
• (2)计算数据,即CPU密集工作
• 一个基本的Hadoop集群中的节点主要有
• NameNode:负责协调集群中的数据存储
• DataNode:存储被拆分的数据块
• JobTracker:协调数据计算任务
• TaskTracker:负责执行由JobTracker指派的任务
• SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息

• 在集群中,大部分的机器设备是作为Datanode和TaskTracker工作的,即数据存储和计算。
• Datanode/TaskTracker的硬件规格可以采用以下方案:
• 4个磁盘驱动器(单盘1-2T),支持JBOD(Just a Bunch Of Disks,磁盘簇)
• 2个4核CPU,至少2-2.5GHz
• 16-24GB内存
• 千兆以太网

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值