大数据处理架构Hadoop

最新推荐文章于 2021-11-22 20:14:58 发布

秘境之眼

最新推荐文章于 2021-11-22 20:14:58 发布

阅读量559

点赞数

分类专栏：大数据技术原理与应用

本文链接：https://blog.csdn.net/TxyITxs/article/details/104492863

版权

21 篇文章 1 订阅

订阅专栏

一.Hadoop简介

1.1 Hadoop可以支持多种编程语言。
1.2 Hadoop 两大核心技术：HDFS+MapReduce，解决了海量数据的分布式存储和分布式处理。

1.3 特性

1.4 Hadoop应用现状
在这里插入图片描述

访问层：数据分析、数据实时查询、数据挖掘
大数据层：
- 离线分析：MapReduce(MR)批量处理,也可以使用Hive、Pig进行数据分析。
- 实时查询：Hbase进行实时查询
- Mahout进行数据挖掘，其实现了许多数据挖掘、机器学习以及商务智能的算法的MapReduce的实现。

1.5 将MapReduce中资源调度的任务独立出来，集成在YARN模块，提高了MapReduce的效率，MapReduce主要负责数据的处理，MapReduce运行在YARN模块上。

1.6 Storm运行在YARN上，主要做流计算；Spark 采用和MapReduce一样的逻辑，但采用内存计算，YARN主要做资源调度。

1.7 HDFS：NN Federation、HA;

二.Hadoop 项目结构

在这里插入图片描述

三.相关基础知识

3.1 shell:是一种命令解析器，它接收用户命令然后调用相关的应用程序。如Bourne Shell简称Bash。
3.2 sudo 是一种权限管理机制。
3.3 SSH：

为Secure Shell的缩写，是建立在应用层和传输层基础上的安全协议，比较可靠，专为远程登录回话和其他网络服务提供安全性的协议。
SSH有客户端和服务端组成，服务端是一个守护进程(daemon),它在后台接收并响应客户端的连接请求，客户端包含试试程序以及像scp(远程拷贝)、slogin(远程登录)、sftp(安全文件传输)等其他的应用程序。

3.4 SSH配置

Hadoop名称节点(NameNode)需要启动集群中的所有机器的Hadoop守护进程，这个过程需要SSH登录来实现，Hadoop并没有提供密码的登录形式，因此为了登录每台机器，需要设置无密登录。

关注