hdfs
hongtaq156136
这个作者很懒,什么都没留下…
展开
-
为CDH 5.7集群添加Kerberos身份验证及Sentry权限控制
4. 为CDH 5集群添加Kerberos身份验证4.1 安装sentry1、点击“操作”,“添加服务”;2、选择sentry,并“继续”;3、选择一组依赖关系4、确认新服务的主机分配5、配置存储数据库; 在mysql中创建对应用户和数据库: 1 2 3 mysql>create database sentryde...转载 2019-03-05 17:45:15 · 652 阅读 · 0 评论 -
Superuser status
Superuser status- The username which was used to start the Hadoop process (i.e., the username who actually ranbin/start-all.shorbin/start-dfs.sh) is acknowledged to be thesuperuserfor HDFS. If t...原创 2019-03-01 19:44:38 · 268 阅读 · 0 评论 -
hdfs acl整理
ACL(访问控制列表)除了传统的POSIX权限模型外,HDFS还支持POSIX ACL(访问控制列表)。ACL对实现与用户和组的自然组织层次结构不同的权限要求很有用。ACL提供了一种为特定命名用户或命名组(不仅是文件所有者和文件组)设置不同权限的方法。默认情况下,禁用对ACL的支持,并且NameNode不允许创建ACL。要启用对ACL的支持,请在NameNode配置中将dfs.nameno...原创 2019-02-25 17:57:53 · 664 阅读 · 0 评论 -
Apache sentry架构分析-(与hive、hdfs集成)
前言Apache Sentry是Cloudera公司发布的一个Hadoop开源组件,它提供了细粒度级、基于角色的授权以及多租户的管理模式。类似的安全管理框架还有Hortonworks公司开源的Apache Ranger。通过引进Sentry,Hadoop目前可在以下方面满足企业和政府用户的RBAC需求:安全授权:Sentry可以控制数据访问,并对已通过验证的用户提供数据访问特权。 细...原创 2019-02-28 17:40:14 · 913 阅读 · 0 评论 -
Hadoop之小文件处理与调优经验
1.什么是小文件小文件一般是指明显小于Hadoop的block size的文件。Hadoop的block size一般是64MB,128MB或者256MB,现在一般趋向于设置的越来越大。后文要讨论的内容会基于128MB,这也是CDH中的默认值。为了方便后面的讨论,Fayson这里假定如果文件大小小于block size的75%,则定义为小文件。但小文件不仅是指文件比较小,如果Hadoop集群中的...转载 2019-02-13 18:00:17 · 496 阅读 · 0 评论 -
如何在Hadoop中处理小文件-续
Fayson在前面的文章《如何在Hadoop中处理小文件》和《如何使用Impala合并小文件》中介绍了什么是Hadoop中的小文件,以及常见的处理方法。这里Fayson再补充一篇文章进行说明。 HDFS中太多的小文件往往会带来性能下降以及扩展性受限问题,为了避免这个问题,我们一般需要控制每个文件尽可能的接近HDFS block大小比如256MB,或者是block size的几倍。 ...原创 2019-01-29 16:22:40 · 221 阅读 · 1 评论 -
NameNode文件对象数大于内存规划
问题背景与现象上层组件访问HDFS缓慢,怀疑HDFS有性能问题。可能原因HDFS的存储的对象数超过NameNode配置的内存。原因分析NameNode中文件对象需要占用一定的内存,消耗内存大小随文件对象的生成而线性递增。NameNode中,文件对象可以是文件、目录或者Block。在NameNode WebUI界面的Summary也可以看到文件系统对象(filesystem ob...原创 2019-01-29 11:38:19 · 1281 阅读 · 0 评论 -
hadoop distcp hftp hdfs跨集群拷贝常见问题归总
在工作中遇到部门间数据合作,需跨不同版本集群拷贝数据,从hadoop 2.6.0-cdh5.7.0 拷贝数据到hadoop 2.7.1, 记录所碰到的问题及解决方案。distcp基础用法比如拷贝A集群(src集群)的A1目录到B集群(dest集群)的B1目录,1.同版本集群拷贝(hdfs协议):在dest集群(目标集群)运行命令:hadoop distcp hdfs://1...原创 2019-01-29 11:26:26 · 4044 阅读 · 0 评论 -
节点内DataNode磁盘使用率不均衡处理指导
问题背景与现象单个节点内DataNode的各磁盘使用率不均匀。例如:复制<span style="color:#333333">189-39-235-71:~ # df -hFilesystem Size Used Avail Use% Mounted on/dev/xvda 360G 92G 250G 28% //dev/xvdb 700G ...原创 2019-01-29 11:25:38 · 1315 阅读 · 0 评论 -
HDFS Balance调优参数设置
问题背景与现象当HDFS集群各个DataNode存储的数据不均衡时,需要使用hdfs balance功能,调整相关参数可以提升balance性能。操作步骤修改如下参数: dfs.datanode.balance.bandwidthPerSec =209715200 说明: 该参数限定每个DataNode用来平衡数据时,占用带宽的上限; 这个参数的调整要看组网情况,如...原创 2019-01-29 11:25:45 · 5277 阅读 · 0 评论