大数据技术基础笔记2 大数据处理架构Hadoop

最新推荐文章于 2022-05-11 14:26:37 发布

Lora青蛙

最新推荐文章于 2022-05-11 14:26:37 发布

阅读量430

点赞数 1

分类专栏：大数据技术基础文章标签：大数据

本文链接：https://blog.csdn.net/LoraRae/article/details/116268248

版权

大数据技术基础专栏收录该内容

8 篇文章 6 订阅

订阅专栏

文章目录

2.1 概述

• Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构
• Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中
• Hadoop的核心是分布式文件系统HDFS（Hadoop Distributed File System）和MapReduce
• Hadoop被公认为行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力
• 几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务，如谷歌、雅虎、微软、思科、淘宝等，都支持Hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几方面的特性：
• 高可靠性
• 高效性
• 高可扩展性
• 高容错性
• 成本低
• 运行在Linux平台上
• 支持多种编程语言

Hadoop在企业中的应用架构
在这里插入图片描述

2.2 Hadoop项目结构

Hadoop的项目结构不断丰富发展，已经形成一个丰富的Hadoop生态系统
在这里插入图片描述

2.3 Hadoop的安装与使用

Hadoop安装之前的预备知识
• 关于Linux的一些基础知识
– Shell：是指“提供使用者使用界面”的软件（命令解析器），类似于DOS下的command和后来的cmd.exe。
– sudo命令：管理员可以授权给一些普通用户去执行一些需要root权限执行的操作。当使用sudo命令时，就需要输入您当前用户的密码
– 输入密码：在Linux的终端中输入密码，终端是不会显示当前输入的密码
– 输入法中英文切换：linux中英文的切换方式是使用键盘“shift”键来切换，顶部菜单有输入法按钮切换。
– Ubuntu终端复制粘贴：在Ubuntu终端窗口中，复制粘贴的快捷键需要加上 shift，即粘贴是ctrl+shift+v
• Hadoop安装方式
– 单机模式：只在一台机器上运行，存储是采用本地文件系统，没有采用分布式文件系统HDFS；
– 伪分布式模式：存储采用分布式文件系统HDFS，但是，HDFS的名称节点和数据节点都在同一台机器上；
– 分布式模式：存储采用分布式文件系统HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。

安装Linux虚拟机
• 材料和工具
– 1、下载VirtualBox虚拟机软件
– https://download.virtualbox.org/virtualbox/6.1.4/VirtualBox-6.1.4-136177-Win.exe
– 2. 下载Ubuntu LTS 16.04（或18.04） ISO映像文件
– Ubuntu LTS 16.04下载：https://www.ubuntu.org.cn/download/ubuntu-kylin
– Ubuntu LTS 18.04下载：https://ubuntu.com/download/desktop

• Hadoop基本安装配置主要包括以下几个步骤：
– 创建Hadoop用户
– SSH登录权限设置
– 安装Java环境
– 单机安装配置
– 伪分布式安装配置

创建Hadoop用户
– 如果安装 Ubuntu 的时候不是用的 “hadoop” 用户，那么需要增加一个名为 hadoop 的用户
– 首先按 ctrl+alt+t 打开终端窗口，输入如下命令创建新用户 :
在这里插入图片描述

– 接着使用如下命令设置密码，可简单设置为 hadoop，按提示输入两次密码：
在这里插入图片描述

– 可为 hadoop 用户增加管理员权限，方便部署，避免一些对新手来说比较棘手的权限问题：
在这里插入图片描述

SSH登录权限设置
• SSH是什么？
– Secure Shell 的缩写，是建立在应用层和传输层基础上的安全协议。SSH 是目前较可靠、专为远程登录会话和其他网络服务提供安全性的协议。
– 利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。SSH最初是UNIX系统上的一个程序，后来又迅速扩展到其他操作平台。
– SSH是由客户端和服务端的软件组成，服务端是一个守护进程(daemon)，它在后台运行并响应来自客户端的连接请求，客户端包含ssh程序以及像scp（远程拷贝）、slogin（远程登陆）、sftp（安全文件传输）等其他的应用程序
• 配置SSH的原因：
– Hadoop名称节点（NameNode）需要启动集群中所有机器的Hadoop守护进程，这个过程需要通过SSH登录来实现。Hadoop并没有提供SSH输入密码登录的形式，因此，为了能够顺利登录每台机器，需要将所有机器配置好，从而让“名称节点可以无密码登录它们”

安装Java环境
• Java环境可选择Oracle的JDK，或是OpenJDK
• 建议采用手工方式安装Java环境
– 具体请参考网络教程：http://dblab.xmu.edu.cn/blog/2441-2/
– 到Java官网下载安装文件jdk-8u162-linux-x64.tar.gz
– 在Linux命令行界面中，执行如下Shell命令（注意：当前登录用户名是hadoop：)

在这里插入图片描述
• 下面继续执行如下命令，设置环境变量：
请在这个文件的开头位置，添加如下几行内容，设置环境变量：
继续执行如下命令让.bashrc文件的配置立即生效：
• 这时，可以使用如下命令查看是否安装成功：
在这里插入图片描述
如果能够在屏幕上返回如下信息，则说明安装成功：

• 关于三种Shell命令方式的区别：
– 1. hadoop fs
– 2. hadoop dfs
– 3. hdfs dfs
– hadoop fs适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统
– hadoop dfs只能适用于HDFS文件系统
– hdfs dfs跟hadoop dfs的命令作用一样，也只能适用于HDFS文件系统

2.4 Hadoop集群

• Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduce：
• （1）从磁盘或从网络读取数据，即IO密集工作；
• （2）计算数据，即CPU密集工作
• 一个基本的Hadoop集群中的节点主要有
• NameNode：负责协调集群中的数据存储
• DataNode：存储被拆分的数据块
• JobTracker：协调数据计算任务
• TaskTracker：负责执行由JobTracker指派的任务
• SecondaryNameNode：帮助NameNode收集文件系统运行的状态信息
• 在集群中，大部分的机器设备是作为Datanode和TaskTracker工作的，即数据存储和计算。
• Datanode/TaskTracker的硬件规格可以采用以下方案：
• 4个磁盘驱动器（单盘1-2T），支持JBOD(Just a Bunch Of Disks，磁盘簇)
• 2个4核CPU,至少2-2.5GHz
• 16-24GB内存
• 千兆以太网

Lora青蛙

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据技术基础笔记2 大数据处理架构Hadoop

文章目录2.1 概述2.1 概述• Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构• Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中• Hadoop的核心是分布式文件系统HDFS（Hadoop Distributed File System）和MapReduce• Hadoop被公认为行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力• 几乎所有主流厂商都围绕Hadoop提供
复制链接

扫一扫