hadoop
文章平均质量分 85
RunningShare
这个作者很懒,什么都没留下…
展开
-
CDH端口汇总
service name parameter port number HBase REST Server Port hbase.rest.port 20550 HBase REST Server Web UI Port hbase.rest.info.port 8085 HBase Thrift Server Port hbase.regionserver.thrift.port 9090 HBase Thrift Server Web UI转载 2021-10-03 11:38:35 · 622 阅读 · 0 评论 -
hadoop(原生及CDH发行版)关键目录、配置文件及服务对应文件名详解
四个最主要的配置文件(原生版本位于$HADOOP_HOME\etc\hadoop目录):mapred-site.xmlcore-site.xmlhdfs-site.xmlyarn-site.xml在CDH发行版中,各目录下的配置及文件及其含义如下:1. 相关目录 /var/log/cloudera-scm-installer : 安装日志目录。/var/log/* : 相关日志文件(相关服务的及CM的)。/usr/share/cmf/ : 程序安装目录。/usr/lib64/cmf..转载 2021-10-02 22:02:03 · 1002 阅读 · 0 评论 -
解决Yarn中任务信息存储过多导致任务失败的问题
问题现象Hadoop集群的任务提交不上去,一直失败集群资源未出现资源不足的情况查看日志RM出现zk相关报错active的ResourceManager的日志报往zk存储任务状态的时候失败,等待调度器丢弃相关事件2021-08-26 14:53:13 ERROR org.apache.hadoop.yarn.server.resourcemanager.recovery.RMStateStore:857 - State store operation failed java.io.IOExc原创 2021-08-30 11:50:21 · 3935 阅读 · 0 评论 -
Yarn RM写ZNode超数据量限制bug修复
Yarn RM写ZNode超数据量限制bug修复问题背景线上集群出现过几次 Yarn RM 写 ZK ZNode 的数据量超过 ZNode 限制,导致 RM 服务均进入 Standby 状态,用户无法正常提交任务,整个集群 hang 住,后续排查发现主要是异常任务写 ZNode 数据量太大,超过 ZNode 限制,导致集群其他提交作业的状态信息无法正常写入 ZNode,为避免类似问题再次出现,我们对 RM 写 ZNode 逻辑进行了优化,规避异常任务对整个集群造成的雪崩效应。一、问题复现最直转载 2021-08-30 11:47:00 · 669 阅读 · 0 评论 -
Hadoop2.6新增用户隔离 hdfs权限介绍
Hadoop2.6新增用户隔离1.hadoop文件权限介绍# (这部分内容参考成品 https://blog.csdn.net/skywalker_only/article/details/40709447)之前在论坛看到一个关于HDFS权限的问题,当时无法回答该问题。无法回答并不意味着对HDFS权限一无所知,而是不能准确完整的阐述HDFS权限,因此决定系统地学习HDFS文件权限。HDFS的文件和目录权限模型共享了POSIX(Portable Operating System Interfa.转载 2020-11-24 11:22:10 · 519 阅读 · 0 评论 -
hadoop fs 命令详解
hadoop fs 命令Most of the commands in FS shell behave like corresponding Unix commands. Differences are described with each of the commands. Error information is sent to stderr and the output is sent to stdout.If HDFS is being used,hdfs dfsis a synonym..转载 2020-11-23 15:38:13 · 1315 阅读 · 0 评论 -
hdfs上传文件没有权限写入的问题解决put: Permission denied: user=root, access=WRITE
问题:如题,在上传文件的时候出现没有权限写入的问题:命令: hdfs dfs -put dummy_log_data /user/impala/data/logs/year=2013/month=07/day=28/host=host1报错信息:put: Permission denied: user=root, access=WRITE, inode="/user/im...原创 2020-02-17 22:42:53 · 3959 阅读 · 0 评论 -
在Hadoop监控页面如何查看Hive的完整SQL
如图,这里只能看到简单的一段SQL,几乎看不出具体在执行什么任务。此时可以点开一个application,点击Tracking URL: ApplicationMaster进入到MapReduce Job job_1409xxxx,Job页面点击左侧的Configuration这里有此Job对应的所有参数,在 右上角的搜索框中输入string,其中key为hive.que...转载 2020-01-22 17:48:51 · 947 阅读 · 0 评论 -
记一次DataNode挂掉导致NameNode显示大量坏块的问题处理
目录背景:所需知识:坏块处理:批量删除坏块总结:未解决疑问:背景:测试环境今天有人反馈有DataNode节点挂掉有部分block不能用的问题,看了下确实active的NN页面显示有52336个坏块,且看datanode节点列表有个节点是Dead状态,不过仔细一看发现stanby的NN的页面里该DataNode是正常的。所需知识:坏块:corruptRe...原创 2020-01-10 10:21:38 · 1369 阅读 · 0 评论 -
HDFS数据块分类
toAdd:新添加的块 toRemove 待移除的块,收集那些没有被汇报上来的块,从blocksMap映射关系中移除掉toInvalidate 无效块最根本的来源是blocksMap中不存在的块。----NameNode页面的PendingDeletionBlock块 第一种是刚刚toRemove中的块信息,使得blocksMap移除了对应的块信息 第二种是新汇报上来的...原创 2020-01-08 13:33:33 · 281 阅读 · 0 评论 -
在程序中指定Spark和Hadoop的用户
Spark和Hadoop都被设计为多用户共享使用,每个用户程序都关联一个用户,Spark和Hadoop根据该用户授予用户程序对集群相关资源的访问权限。如果是强认证方式,每个用户程序关联的用户不可随意指定,而至少需要提供必要的认证信息(如密码);如果是弱认证方式,则可以在用户程序中指定关联用户,而不需要提供认证信息。Spark(0.8.0版本)使用的是弱认证方式,Hadoop可以配置使用强认证方式(...转载 2019-12-27 17:28:31 · 3480 阅读 · 0 评论 -
记hadoop集群黑名单移除节点出现问题及解决
首先区分一下通过直接下线服务和通过黑名单来移除节点的区别,这两个动作都会涉及到block副本数不够而复制移动恢复的问题,但是通过黑名单的话可以同时移除多个节点,这个是两种情况的主要区别;步骤:1.移除nodemanager在yarn-site.xml中加入以下配置<property><name>ya...转载 2019-11-29 09:37:45 · 362 阅读 · 0 评论 -
索引、分区和分桶的区别
一、索引简介Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。为什么要创建索引?Hive的索引目的是提高Hive表指定列的查询速度。没有索引时,类似'WHERE tab1.col1 = 10' 的查询,H...转载 2019-09-29 17:57:15 · 878 阅读 · 0 评论 -
关于YARN Node Labels的一点理解
最近在做实验,实验需要进行分区域计算,网上查了资料后发现Yarn Node Labels + Capacity-Scheduler可以实现我的需求但是当任务提交到capacity-scheduler调度器的default队列时,任务卡在ACCEPTED阶段。网上看了很多发现没有这方面的信息,最后在Apache hadoop官网的官方手册上查到有以下信息property Va...转载 2019-09-03 16:05:23 · 467 阅读 · 0 评论