总结：大数据服务

小魏的博客

已于 2022-08-10 10:02:52 修改

阅读量2.5k

点赞数 2

分类专栏：大数据 HBase 文章标签： hadoop 大数据 hdfs

于 2022-08-10 09:58:52 首次发布

本文链接：https://blog.csdn.net/w2009211777/article/details/126260422

版权

大数据同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

HBase

5 篇文章 0 订阅

订阅专栏

一、介绍

记录下公司hadoop集群使用记录。

hadoop账号申请：

Hadoop服务采用Kerberos认证（Kerberos笔记_bluishglc的博客-CSDN博客_keytab文件）

业务账号（Kerberos Principal）是访问Hadoop资源的基础，该账号对所有Hadoop集群通用

Hadoop/HBase/Hive的使用方式是用户通过Hadoop client（入口机/跳板机）去访问Hadoop集群，用户可以在client上提交job或者通过shell命令访问HDFS/HBase/Hive等。

但是，不建议再使用入口机，请使用Babel、Talos、Gear等平台，无需入口机

完成入口机申请之后，Hadoop用户的Keytab路径如下，用户可以自行下载到本地，用于Java程序开发等作用：

/home/<hadoop_user>/<hadoop_user>.keytab

二、Kerberos

1、Kerberos的基本思想

Kerberos是一种客户端-服务器架构。
总的来说，Kerberos要解决的是一个“Authentication”（身份认证）的问题，而“身份认证“就是在解决“如何证明某个人确确实实就是他或她所声称的那个人”的问题。对于如何进行Authentication，Kerberos使用的是这样的一种逻辑：如果一个秘密（secret）仅仅存在于A和B，那么有个人对B声称自己就是A，B通过让A提供这个秘密来证明这个人就是他或她所声称的A。

2、没有Kerberos时，Hadoop是如何工作的？

Hadoop的身份认证是一种非常简单的认证方式，你告诉它你是谁，它就相信你是谁。例如我们在Linux上建立一个叫Bill的账号，当我们使用这个用户操作HDFS时，Hadoop就会认为当前操作的用户就是Bill，本质上是没有认证这个过程的。

Hadoop添加了Kerberos之后，实际的情况会变成：当你向Hadoop说你是Bill的时候，Hadoop会要要求你出示一下你的身份证件，只有你的证件显示你是Bill，Hadoop才相信你就是Bill。

三、Kerberos的几个概念

1. Principal
对于每一个访问的个体， Kerberos称之为"Principal", 这里要强调是：不管是一个用户还是一个服务，如果它们需要参与到Kerberos的认证体系里，他们都会是一个Principal。因此Principal会分为两种：User类型的Principal和Service类型的Principal。其中User类型的Principal的名字叫UPN，Service类型的Principal的名字叫SPN。

2. Realm
一个realm是一个身份认证管理的域，所有的principal都会被分配到一个realm里。

3. KDC
当Principal和Realm被建立起来之后，接下来就是要搞清楚这些信息是如何被存储和控制的。负责这项工作的就是KDC（key
distribution center）， KDC由三个组件构成：Kerberos数据库，认证服务（authentication service）以及票据授予服务（ticket-granting service）

4、keytab文件

kerberos中需要使用密码的场景都可以用一个keytab作为输入。

keytab是包含principals和加密principal key的文件。keytab文件对于每个host是唯一的，因为key中包含hostname。keytab文件用于不需要人工交互和保存纯文本密码，实现到kerberos上验证一个主机上的principal。因为服务器上可以访问keytab文件即可以以principal的身份通过kerberos的认证，所以，keytab文件应该被妥善保存，应该只有少数的用户可以访问。

使用keytab文件的好处是它是非交互的，这特别适用于服务类型的principal。一个keytab文件并不一定只能包含单一的principal，多个不同的principal的key可以存放在一个单一的keytab文件中。