Hadoop
文章平均质量分 71
Junjie_M
这个作者很懒,什么都没留下…
展开
-
HDFS中的集中缓存 (Centralized Cache Management in HDFS)
集中缓存有两层概念:第一层是缓存,即为存储在HDFS中文件提供缓存的机制,从而可以加速DFSClient对文件的读操作;第二层概念是集中式的管理,传统的HDFS缓存依赖了OS本身的缓存机制,但是这种缓存机制不能被管理员或中央节点进行管理,不能自由的控制哪些文件缓存,哪些文件不进行缓存;集中式的管理可以提高了对缓存内存的可控性;HDFS中集中缓存架构如下所示:转载 2015-01-07 16:25:28 · 592 阅读 · 0 评论 -
HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制
第一部分:当前HDFS架构详尽分析 HDFS架构 •NameNode •DataNode •Sencondary NameNode 数据存储细节 NameNode 目录结构 Namenode 的目录结构: ${ dfs.name.dir}/current /VERSION转载 2015-01-15 13:25:01 · 1915 阅读 · 0 评论 -
Impala配置Kerberos认证
关于 Kerberos 的安装和 HDFS 配置 kerberos 认证,请参考 HDFS配置kerberos认证。关于 Kerberos 的安装和 YARN 配置 kerberos 认证,请参考 YARN配置kerberos认证。关于 Kerberos 的安装和 Hive 配置 kerberos 认证,请参考 Hive配置kerberos认证。请先完成 HDFS 、Y转载 2015-02-03 12:35:47 · 5616 阅读 · 0 评论 -
Hadoop 常见问题处理汇总
P1:ssh连接机器,出现ssh:NODE_166:Temporary failure in name resolution解决办法:检查/etc/hosts文件中定义了主机名和IP地址对应关系是否正确。P2: ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io转载 2015-01-15 19:59:51 · 1871 阅读 · 0 评论 -
HDFS配置Kerberos认证
本文转自:http://blog.javachen.com/本文主要记录 CDH Hadoop 集群上配置 HDFS 集成 Kerberos 的过程,包括 Kerberos 的安装和 Hadoop 相关配置修改说明。注意:下面第一、二部分内容,摘抄自《Hadoop的kerberos的实践部署》,主要是为了对 Hadoop 的认证机制和 Kerberos 认证协议做个转载 2015-02-03 12:30:58 · 1580 阅读 · 0 评论 -
Hive配置Kerberos认证
关于 Kerberos 的安装和 HDFS 配置 kerberos 认证,请参考 HDFS配置kerberos认证。关于 Kerberos 的安装和 YARN 配置 kerberos 认证,请参考 YARN配置kerberos认证。请先完成 HDFS 和 YARN 配置 Kerberos 认证,再来配置 Hive 集成 Kerberos 认证 !参考 使用yum安装转载 2015-02-03 12:34:57 · 14695 阅读 · 1 评论 -
Fair Scheduler
与Capacity Scheduler类似,Fair Scheduler以队列为单位划分资源,每个队列可设定一定比例的资源最低保证和使用上限,同时,每个用户也可设定一定的资源使用上限以防止资源滥用;当一个队列的资源有剩余时,可暂时将剩余的资源共享给其他队列。Fair Scheduler与Capacity Scheduler不同之处主要体现在以下几个方面:资源公平共享:在每个队列中,Fair转载 2015-02-10 11:00:44 · 1734 阅读 · 0 评论 -
Hadoop 2.0中Capacity Scheduler与Fair Scheduler对比
随着Hadoop版本的演化,Fair Scheduler和Capacity Scheduler的功能越来越完善,包括层级队列组织方式、资源抢占、批量调度等,也正因如此,两个调度器同质化越来越严重,目前看了,两个调度器从设计到支持的特性等方面非常接近,而由于Fair Scheduler支持多种调度策略,现在看来,可以认为Fair Scheduler具备了Capacity Scheduler具有的转载 2015-02-10 10:40:36 · 1916 阅读 · 0 评论 -
YARN动态资源池配置案例
EDH作为统一的企业级数据中心,往往是一个多租户的应用环境。在该环境中,不同用户会同时使用集群资源。如何保证用户数据不被任意篡改?如何保证任务的权限控制 (例如用户A不能任性地取消用户B的任务)?如何确保用户资源使用不超过他们的配额?1. 开启HDFS权限检查 (默认是开启的)"Check HDFS Permissions"选中2.转载 2015-04-08 09:17:03 · 5816 阅读 · 0 评论 -
hadoop的dfs.replication和dfs setrep
首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。其实默认为3个副本已经够用了,设置太多也没什么用。一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1转载 2015-01-15 19:50:06 · 3319 阅读 · 0 评论 -
CDH 5.2中Impala认证集成LDAP和Kerberos
这是一篇翻译的文章,原文为 New in CDH 5.2: Impala Authentication with LDAP and Kerberos。由于翻译水平有限,难免会一些翻译不准确的地方,欢迎指正!Impala 认证现在可以通过 LDAP 和 Kerberos 联合使用来解决。下文来解释为什么和怎样解决。Impala,是基于 Apache Hadoop 的一个开源的转载 2015-02-03 12:39:18 · 2077 阅读 · 0 评论 -
HDFS 上传文件不均衡和Balancer太慢的问题
向HDFS上传文件,如果是从某个datanode开始上传文件,会导致上传的数据优先写满当前datanode的磁盘,这对于运行分布式程序是非常不利的。解决的办法:1、从其他非datanode节点上传可以将hadoop的安装目录复制一份到一个不在集群中的节点(直接从非datanode的namenode上传也可以,但是这样不太好,会增加namenode的负担,并且时间长了会让na转载 2015-01-09 16:36:44 · 1422 阅读 · 0 评论 -
Hadoop集群节点的动态增加与删除
Hadoop集群节点的动态增加1. 安装配置节点具体过程参考 《Hadoop集群实践 之 (1) Hadoop(HDFS)搭建》2. 在配置过程中需要在所有的Hadoop服务器上更新以下三项配置$ sudo vim /etc/hadoop/conf/slaves1hadoop-node-12转载 2015-01-15 12:32:08 · 817 阅读 · 0 评论 -
HDFS的dfs.replication不同验证
集群只有三个Datanode,hadoop系统replication=4时,会出现什么情况?文件块只有三份,hadoop fsck -locations 如图所示: 对于上传文件到hdfs上时,当时hadoop的副本系数是几,这个文件的块数副本数就会有几份,无论以后你怎么更改系统副本系统,这个文件的副本数都不会改变,也就说上传到分布式系统上的文件副本数由当时的系统副转载 2015-01-15 17:13:30 · 2596 阅读 · 0 评论 -
Hadoop配置LDAP集成Kerberos
本文主要记录 cdh hadoop 集群集成 ldap 的过程,这里 ldap 安装的是 OpenLDAP 。LDAP 用来做账号管理,Kerberos作为认证。授权一般来说是由应用来决定的,通过在 LDAP 数据库中配置一些属性可以让应用程序来进行授权判断。关于 Kerberos 的安装和 HDFS 配置 kerberos 认证,请参考 HDFS配置kerberos认证。参考 使转载 2015-02-03 12:37:45 · 4732 阅读 · 0 评论 -
Impala和Hive集成Sentry
本文主要记录 CDH 5.2 Hadoop 集群中配置 Impala 和 Hive 集成 Sentry 的过程,包括 Sentry 的安装、配置以及和 Impala、Hive 集成后的测试。使用 Sentry 来管理集群的权限,需要先在集群上配置好 Kerberos。关于 Hadoop 集群上配置 kerberos 以及 ldap 的过程请参考本博客以下文章:HDFS配置K转载 2015-02-03 12:38:22 · 5642 阅读 · 0 评论 -
Hadoop集群部署权限总结
这是一篇总结的文章,主要介绍 Hadoop 集群快速部署权限的步骤以及一些注意事项,包括 Hadoop 各个组件集成 kerberos、openldap 和 sentry 的过程。如果你想了解详细的过程,请参考本博客中其他的文章。1. 开始之前hadoop 集群一共有三个节点,每个节点的 ip、hostname、角色如下:192.168.56.121 cdh1 NameNo转载 2015-02-03 12:39:59 · 1596 阅读 · 0 评论 -
Zookeeper配置Kerberos认证
关于 Hadoop 集群上配置 kerberos 以及 ldap 的过程请参考本博客以下文章:HDFS配置Kerberos认证YARN配置Kerberos认证Hive配置Kerberos认证Impala配置Kerberos认证Hadoop配置LDAP集成Kerberos参考 使用yum安装CDH Hadoop集群 安装 hadoop 集群,集群包括三个节点,每个节点的ip、主机名和转载 2015-02-03 12:36:28 · 13789 阅读 · 2 评论 -
YARN配置Kerberos认证
关于 Kerberos 的安装和 HDFS 配置 kerberos 认证,请参考 HDFS配置kerberos认证。请先完成 HDFS 配置 Kerberos 认证,再来配置 YARN 集成 Kerberos 认证 !参考 使用yum安装CDH Hadoop集群 安装 hadoop 集群,集群包括三个节点,每个节点的ip、主机名和部署的组件分配如下:192.168.56转载 2015-02-03 12:33:09 · 3983 阅读 · 0 评论 -
使用Hadoop和Hive命令行
hadoop解压 gz 文件到文本文件$ hadoop fs -text /hdfs_path/compressed_file.gz | hadoop fs -put - /tmp/uncompressed-file.txt解压本地文件 gz 文件并上传到 hdfs$ gunzip -c filename.txt.gz | hadoop fs -put - /tmp/转载 2015-04-16 10:54:14 · 2106 阅读 · 0 评论