![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
hongtaq156136
这个作者很懒,什么都没留下…
展开
-
如何在Hadoop中处理小文件-续
Fayson在前面的文章《如何在Hadoop中处理小文件》和《如何使用Impala合并小文件》中介绍了什么是Hadoop中的小文件,以及常见的处理方法。这里Fayson再补充一篇文章进行说明。 HDFS中太多的小文件往往会带来性能下降以及扩展性受限问题,为了避免这个问题,我们一般需要控制每个文件尽可能的接近HDFS block大小比如256MB,或者是block size的几倍。 ...转载 2019-02-23 17:04:39 · 138 阅读 · 0 评论 -
查看HDFS的元数据文件fsimage和编辑日志edits
关键字:hdfs元数据、fsimage、edits在HDFS中,fsimage和eidts是NameNode两个非常重要的文件。其中,fsimage是HDFS文件系统存于硬盘中的元数据检查点,里面记录了自最后一次检查点之前HDFS文件系统中所有目录和文件的序列化信息;而edits保存了自最后一次检查点之后所有针对HDFS文件系统的操作,比如:增加文件、重命名文件、删除目录等等。 在...转载 2019-02-23 17:54:16 · 2518 阅读 · 0 评论 -
Hadoop之小文件处理与调优经验
1.什么是小文件小文件一般是指明显小于Hadoop的block size的文件。Hadoop的block size一般是64MB,128MB或者256MB,现在一般趋向于设置的越来越大。后文要讨论的内容会基于128MB,这也是CDH中的默认值。为了方便后面的讨论,Fayson这里假定如果文件大小小于block size的75%,则定义为小文件。但小文件不仅是指文件比较小,如果Hadoop集群中的...转载 2019-02-13 18:00:17 · 521 阅读 · 0 评论 -
hdfs acl整理
ACL(访问控制列表)除了传统的POSIX权限模型外,HDFS还支持POSIX ACL(访问控制列表)。ACL对实现与用户和组的自然组织层次结构不同的权限要求很有用。ACL提供了一种为特定命名用户或命名组(不仅是文件所有者和文件组)设置不同权限的方法。默认情况下,禁用对ACL的支持,并且NameNode不允许创建ACL。要启用对ACL的支持,请在NameNode配置中将dfs.nameno...原创 2019-02-25 17:57:53 · 701 阅读 · 0 评论 -
Superuser status
Superuser status- The username which was used to start the Hadoop process (i.e., the username who actually ranbin/start-all.shorbin/start-dfs.sh) is acknowledged to be thesuperuserfor HDFS. If t...原创 2019-03-01 19:44:38 · 274 阅读 · 0 评论 -
为CDH 5.7集群添加Kerberos身份验证及Sentry权限控制
4. 为CDH 5集群添加Kerberos身份验证4.1 安装sentry1、点击“操作”,“添加服务”;2、选择sentry,并“继续”;3、选择一组依赖关系4、确认新服务的主机分配5、配置存储数据库; 在mysql中创建对应用户和数据库: 1 2 3 mysql>create database sentryde...转载 2019-03-05 17:45:15 · 663 阅读 · 0 评论 -
为什么Cloudera要创建Hadoop安全组件Sentry?
转载自:http://developer.51cto.com/art/201502/465091.htm1. 大数据的安全体系要说清楚这个问题,还得从大数据平台安全体系的四个层次说起:外围安全、数据安全、访问安全以及访问行为监控;如下图所示: 外围安全:技术多指传统意义上提到的网络安全技术,如防火墙,登陆认证等; 数据安全:从狭义上说包括对用户数据的加解密,又可细分为存...转载 2019-02-16 10:45:30 · 258 阅读 · 0 评论 -
如何在Hadoop中处理小文件-续
Fayson在前面的文章《如何在Hadoop中处理小文件》和《如何使用Impala合并小文件》中介绍了什么是Hadoop中的小文件,以及常见的处理方法。这里Fayson再补充一篇文章进行说明。 HDFS中太多的小文件往往会带来性能下降以及扩展性受限问题,为了避免这个问题,我们一般需要控制每个文件尽可能的接近HDFS block大小比如256MB,或者是block size的几倍。 ...原创 2019-01-29 16:22:40 · 226 阅读 · 1 评论 -
大数据之Yarn——Capacity调度器概念以及配置
大数据之Yarn——Capacity调度器概念以及配置试想一下,你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个任务呢?是先执行A的任务,再执行B的任务,还是同时跑两个?如果你存在上述的困惑,可以多了解一些yarn的资源调度器。在Yarn框架中,调度器是...转载 2018-06-28 14:26:08 · 787 阅读 · 0 评论 -
[YARN] Yarn下Mapreduce的内存参数理解
这篇文章算是给自己重新缕清MR下内存参数的含义Container是什么?Container就是一个yarn的java进程,在Mapreduce中的AM,MapTask,ReduceTask都作为Container在Yarn的框架上执行,你可以在RM的网页上看到Container的状态基础Yarn的ResourceManger(简称RM)通过逻辑上的队列分配内存,CPU等资源给app...转载 2018-08-01 20:58:48 · 565 阅读 · 0 评论 -
hdfs权限
小米的HDFS承载了公司内多个部门几十条业务线的几十PB数据,这些数据有些是安全级别非常高的用户隐私数据,也有被广泛被多个业务线使用的基础数据,不同的业务之间有着复杂的数据依赖。因此,如何管理好这些数据的授权,并尽可能自动化低成本的做好权限管理,是很重要的一部分工作。本文系统的描述了HDFS权限管理体系中与用户关联最紧密的授权相关内容,希望通过本文让大家对权限管理有一个清晰的了解。HDFS的...转载 2019-01-24 20:07:21 · 322 阅读 · 0 评论 -
一篇文章搞懂HDFS权限管理
一篇文章搞懂HDFS权限管理 HDFS承载了公司内多个部门几十条业务线的几十PB数据,这些数据有些是安全级别非常高的用户隐私数据,也有被广泛被多个业务线使用的基础数据,不同的业务之间有着复杂的数据依赖。因此,如何管理好这些数据的授权,并尽可能自动化低成本的做好权限管理,是很重要的一部分工作。本文系统的描述了HDFS权限管理体系中与用户关联最紧密的授权相关内容,希望通过本文让大家对权限管理有...转载 2019-01-15 20:24:28 · 5457 阅读 · 1 评论 -
HDFS Balance调优参数设置
问题背景与现象当HDFS集群各个DataNode存储的数据不均衡时,需要使用hdfs balance功能,调整相关参数可以提升balance性能。操作步骤修改如下参数: dfs.datanode.balance.bandwidthPerSec =209715200 说明: 该参数限定每个DataNode用来平衡数据时,占用带宽的上限; 这个参数的调整要看组网情况,如...原创 2019-01-29 11:25:45 · 5355 阅读 · 0 评论 -
节点内DataNode磁盘使用率不均衡处理指导
问题背景与现象单个节点内DataNode的各磁盘使用率不均匀。例如:复制<span style="color:#333333">189-39-235-71:~ # df -hFilesystem Size Used Avail Use% Mounted on/dev/xvda 360G 92G 250G 28% //dev/xvdb 700G ...原创 2019-01-29 11:25:38 · 1340 阅读 · 0 评论 -
hadoop distcp hftp hdfs跨集群拷贝常见问题归总
在工作中遇到部门间数据合作,需跨不同版本集群拷贝数据,从hadoop 2.6.0-cdh5.7.0 拷贝数据到hadoop 2.7.1, 记录所碰到的问题及解决方案。distcp基础用法比如拷贝A集群(src集群)的A1目录到B集群(dest集群)的B1目录,1.同版本集群拷贝(hdfs协议):在dest集群(目标集群)运行命令:hadoop distcp hdfs://1...原创 2019-01-29 11:26:26 · 4104 阅读 · 0 评论 -
NameNode文件对象数大于内存规划
问题背景与现象上层组件访问HDFS缓慢,怀疑HDFS有性能问题。可能原因HDFS的存储的对象数超过NameNode配置的内存。原因分析NameNode中文件对象需要占用一定的内存,消耗内存大小随文件对象的生成而线性递增。NameNode中,文件对象可以是文件、目录或者Block。在NameNode WebUI界面的Summary也可以看到文件系统对象(filesystem ob...原创 2019-01-29 11:38:19 · 1301 阅读 · 0 评论 -
如何在Hadoop中处理小文件
如何在Hadoop中处理小文件Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 本文约6000字,阅读时间约为15分钟。 1.什么是小文件 小文件一般是指明显小于Hadoop的block size的文件。Hadoop的block size一般是64M...转载 2019-01-29 15:34:33 · 300 阅读 · 0 评论 -
hadoop-map-reducer端优化
shuffle影响性能的因素1 Map –>buffer –> partition, sort, spill to disk (输出缓冲区,溢出写磁盘比例,运行combiner最小溢出写文件数3, task tracker工作线程数)2 Reducecopy (5 threads) –> memory (buffer size) –> disk (threhold) –&g...转载 2018-07-02 20:30:47 · 307 阅读 · 0 评论