总结:大数据服务

一、介绍

记录下公司hadoop集群使用记录。

hadoop账号申请:

Hadoop服务采用Kerberos认证(Kerberos笔记_bluishglc的博客-CSDN博客_keytab文件

业务账号(Kerberos Principal)是访问Hadoop资源的基础,该账号对所有Hadoop集群通用

Hadoop/HBase/Hive的使用方式是用户通过Hadoop client(入口机/跳板机)去访问Hadoop集群,用户可以在client上提交job或者通过shell命令访问HDFS/HBase/Hive等。

但是,不建议再使用入口机,请使用Babel、Talos、Gear等平台,无需入口机

完成入口机申请之后,Hadoop用户的Keytab路径如下,用户可以自行下载到本地,用于Java程序开发等作用:

/home/<hadoop_user>/<hadoop_user>.keytab

二、Kerberos

1、Kerberos的基本思想

Kerberos是一种客户端-服务器架构。
总的来说,Kerberos要解决的是一个“Authentication”(身份认证)的问题,而“身份认证“就是在解决“如何证明某个人确确实实就是他或她所声称的那个人”的问题。对于如何进行Authentication,Kerberos使用的是这样的一种逻辑:如果一个秘密(secret)仅仅存在于A和B,那么有个人对B声称自己就是A,B通过让A提供这个秘密来证明这个人就是他或她所声称的A。

2、没有Kerberos时,Hadoop是如何工作的?

Hadoop的身份认证是一种非常简单的认证方式,你告诉它你是谁,它就相信你是谁。例如我们在Linux上建立一个叫Bill的账号,当我们使用这个用户操作HDFS时,Hadoop就会认为当前操作的用户就是Bill,本质上是没有认证这个过程的。

Hadoop添加了Kerberos之后,实际的情况会变成:当你向Hadoop说你是Bill的时候,Hadoop会要要求你出示一下你的身份证件,只有你的证件显示你是Bill,Hadoop才相信你就是Bill。

三、Kerberos的几个概念

1. Principal
对于每一个访问的个体, Kerberos称之为"Principal", 这里要强调是:不管是一个用户还是一个服务,如果它们需要参与到Kerberos的认证体系里,他们都会是一个Principal。因此Principal会分为两种:User类型的Principal和Service类型的Principal。 其中User类型的Principal的名字叫UPN,Service类型的Principal的名字叫SPN。

2. Realm
一个realm是一个身份认证管理的域,所有的principal都会被分配到一个realm里。

3. KDC
当Principal和Realm被建立起来之后,接下来就是要搞清楚这些信息是如何被存储和控制的。负责这项工作的就是KDC(key
distribution center), KDC由三个组件构成:Kerberos数据库,认证服务 (authentication service)以及票据授予服务(ticket-granting service)

4、keytab文件

kerberos中需要使用密码的场景都可以用一个keytab作为输入。

keytab是包含principals和加密principal key的文件。keytab文件对于每个host是唯一的,因为key中包含hostname。keytab文件用于不需要人工交互和保存纯文本密码,实现到kerberos上验证一个主机上的principal。因为服务器上可以访问keytab文件即可以以principal的身份通过kerberos的认证,所以,keytab文件应该被妥善保存,应该只有少数的用户可以访问。

使用keytab文件的好处是它是非交互的,这特别适用于服务类型的principal。一个keytab文件并不一定只能包含单一的principal,多个不同的principal的key可以存放在一个单一的keytab文件中。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 大数据和云计算是相互关联的概念。大数据指的是海量、高增长率和多样化的数据,而云计算则提供了存储和处理这些数据的基础设施和平台。通过云计算,可以更有效地存储和处理大数据,并允许用户在互联网上访问这些数据。 ### 回答2: 大数据和云计算是两个相互关联且互相促进的概念。 首先,大数据是指在传统数据处理工具无法处理的数据规模、复杂性和多样性下所产生的数据集合。大数据的处理需要更强大的计算能力和存储空间,这就引出了云计算的概念。 云计算提供了弹性的计算和存储资源,可以根据需求快速调整资源规模。这意味着企业或个人可以在需要时快速扩展计算和存储能力,从而更好地处理大数据。云计算通过虚拟化技术将计算和存储资源分布在全球范围的数据中心,用户通过互联网即可获取这些资源。这样一来,大数据的处理不再依赖于本地的硬件设备,而是可以利用云计算的资源进行分析和挖掘。 此外,云计算也可以提供大数据分析的工具和平台。云计算场景下的大数据分析可以利用分布式计算和分布式存储的优势,实现对海量数据的高效处理和分析。云计算提供的高性能计算能力和弹性资源配置可以大幅提升大数据分析的效率,加快业务决策的速度。 总结起来,大数据和云计算之间的关系是相辅相成的。大数据需要云计算的弹性资源和高性能计算能力,而云计算又为大数据的处理和分析提供了便利的环境和工具。随着大数据规模的不断增长,云计算将发挥越来越重要的作用,促进大数据的应用和发展。 ### 回答3: 大数据和云计算是紧密相互关联的两个概念。大数据指的是海量、高速、多样的数据集合,通过采集、存储、处理和分析这些数据,可以获得有价值的信息和洞察。 而云计算是指通过互联网将资源(如计算、存储、数据库等)提供给用户使用的一种计算模式。云计算提供了弹性、灵活和高效的资源共享方式,可以根据用户需求进行资源规模的调整。 大数据与云计算的关系主要体现在以下几方面: 1. 存储和处理能力:大数据需要海量的存储和高速的处理能力来应对数据的规模和速度。云计算提供了弹性的存储和计算资源,可以满足大数据处理的需求。 2. 弹性和灵活性:大数据通常是海量和不确定的,因此需要根据需求来动态调整资源规模。云计算提供了按需分配和弹性扩缩容的能力,可以根据数据量和处理需求来灵活调整资源。 3. 成本效益:大数据的存储和处理需要大量的硬件设备和软件工具,对企业来说投入较大。云计算提供的资源共享和按需使用可以减少硬件设备的投资和维护成本,提高资源利用率。 4. 数据安全和隐私:大数据的处理与存储涉及到数据的安全和隐私保护。云计算提供了多层次的安全措施和隔离机制,可以保障大数据的安全性和隐私性。 综上所述,大数据和云计算是相辅相成的关系。大数据需要云计算提供的弹性资源来处理和存储数据,而云计算也可以通过大数据的分析和挖掘来提供更加智能和定制化的服务大数据和云计算的集成将为企业和个人带来更多的商业价值和便利。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值