在大数据领域,安全永远是一个绕不开的话题。
对于一个简单安装上线的 hadoop 集群,我们可以认为有如下安全隐患:
如,可以人为的添加一个客户端节点,并以此假冒的客户端来获取集群数据。对于一个假冒的客户端节点,成功加入集群就能够伪装 datanode 让得到 namenode 指派的任务和数据。创建一个HDFS账户,就可以得到 hadoop 文件系统的最高权限。Kerberos 主要用来做网络通讯中的身份认证,帮助我们高效、安全的识别访问者。那么 Kerberos 是如何做身份认证的呢?
我们来看一个现实中的例子:
小明要去电影院观看一场电影
那么对于这样一个流程来说就有:
-
前期需求,确定了自己想要看什么电影,位于哪个影院,什么时间后使用自己的账户密码登录票务中心。
-
购票机制,通过付费(发送请求)来让小明从未授权的影院访问者变成被授权访问的状态。
-
验票机制,验证票据持有者的身份,和票务中心核对验证票据的合法性、时间、以及访问的位置。
-
观看电影,一切验证通过后得到想要的内容。
-
再次观看,需要重新购票走流程。
那么对于这样一个例子,相信大家应该都很好理解。 Kerberos的认证流程基本上和上述的例子差不多,我们来对上述例子进行一个转换一一对应:
发送请求,表明要访问什么服务,使用自己的密码来对请求进行加密
验证身份后,得到一个ticket(票据