Cloudera Hadoop
文章平均质量分 64
数据源的港湾
这个作者很懒,什么都没留下…
展开
-
HBase之异步Replication机制
HBase 提供了一种群集复制机制,允许使用源群集的预写日志(WAL)来传播更改,从而使一个群集的状态与另一个群集的状态保持同步。集群复制的一些用例包括:HBase中的Replication是基于WAL的,其在主集群的每一个RegionServer进程内部起了一个叫作ReplicationSource的线程来负责Replication,同时在备集群的每一个RegionServer内部起了一个ReplicationSink的线程来负责接收Replication数据。ReplicationSource记录须要同原创 2022-06-27 14:16:41 · 2171 阅读 · 0 评论 -
Cloudera Agent启动报错-Failed to connect to previous supervisor
现象某CDH环境由于有节点重启,重启后发现Cloudera Agent服务异常。从Agent日志中查看报错如下截图所示。分析正常Agent启动后df -h看到有一个挂载的/var/run/process进程,但是此时Agent起来的我们找不到这个进程。根据网上相关文章显示,系统异常宕机后导致启动后临时文件不能访问。通过以下命令我们找到for mnt in $(mount|cut -d ' ' -f 3); do stat $mnt 1>/dev/null 2>&1; rc=原创 2022-04-05 22:11:11 · 1128 阅读 · 0 评论 -
CM起不来报错ScmActive at bootup: Failed to validate the identity of Cloudera Manager
现象某集群环境Cloudera Manager使用service cloudera-scm-server start无法启动CM server服务,[root@cdcpri01 ~]# service cloudera-scm-server startStarting cloudera-scm-server (via systemctl): Job for cloudera-scm-server.service failed because the control process exited wi原创 2020-12-14 11:35:12 · 1090 阅读 · 0 评论 -
Hive metastore启动报错The specified datastore driver(“com.mysql.jdbc.Driver“) was not found in the CLASS
现象某集群有两个Hive metastore,其中一个正常运行,另一个启动报错,报错的Hive metastore日志报错信息如下,上午9点56:55.875分 WARN HiveMetaStore [main]: Retrying creating default database after error: Error creating transactional connection factoryjavax.jdo.JDOFatalInternalException: Error creati原创 2020-11-04 10:44:23 · 1298 阅读 · 0 评论 -
CDH 5.13升级到5.16
本篇章节主要介绍如何从CDH 5.13升级到5.16版本,此步骤也可以借鉴用来作其他CDH版本升级的指导。首先,准备CDH 5.16的安装包,包括CM 5.16的rpm包,及CDH 5.16的parcel包。//parcel包-rw-r--r-- 1 root root 2132782197 Oct 14 16:01 CDH-5.16.2-1.cdh5.16.2.p0.8-el7.parcel -rw-r--r-- 1 root root 41 Oct 14 16:01 CDH-原创 2020-10-26 19:39:03 · 508 阅读 · 0 评论 -
管理节点更换磁盘导致JournalNode同步问题
现象集群配置了NameNode HA,突然发生一台NameNode节点所在的数据盘如/data1磁盘故障需要更换磁盘,原来的磁盘下面的目录将都不可用。/data1目录下面的主要目录为dfs目录,更换磁盘并启动hadoop相关服务后,我们发现dfs目录自动创建dfs/dn、dfs/jn及dfs/nn都已经创建,但HDFS仍然不正常,具体为更换磁盘节点的NameNode服务及JournalNode服务异常,如下图所示解决方案出现此问题,是因为更换了磁盘后dfs/jn目录下没有VERSION文件用来原创 2020-10-07 11:49:26 · 979 阅读 · 0 评论 -
从已有CDH集群中配置CM HA
Hadoop的很多组件都是具有高可用性的,NameNode有HA,Zookeeper一般也是配置多个奇数个节点保证高可用,HBase Master可以配置多个做HA,DataNode、RegionServer等一般情况下都是配置成多个,保证数据的三副本。大多数据情况下,我们在安装Cloudera集群的时候对于Cloudere Manager这块可能只会默认装在一个节点,且一般情况下会安装在根目录。由于根目录磁盘一般会配置成RAID1,所以即使根目录磁盘坏了一块,也不影响CM服务。不过在某些特殊的情况下,原创 2020-07-27 23:21:19 · 1186 阅读 · 0 评论 -
CDH 磁盘逻辑卷扩容后Zookeeper无法删除的大坑
近日在一套客户的测试环境遇到一个棘手的问题。问题现象是这样的,客户CDH测试环境由于之前磁盘容量较小导致磁盘占用满的问题,在做了磁盘逻辑卷扩容后发现CDH无法正常恢复的问题,重启测试环境虚拟机也不起作用。1、一开始,发现CDH Manager Service服务中的EventServer启动异常,报错如以下截图解决方案:删除/var/lib/cloudera-scm-eventserver/*并重启,解决!2、问题1解决后我们发现Zookeeper服务一直显示无法停止的状态,如以下截图解决步原创 2020-07-02 12:08:28 · 425 阅读 · 0 评论 -
HBase Master启动报错java.io.IOException: error or interrupted while splitting logs
今天在一个CDH环境中启动HBase时HBase Master启动发生异常,HBase Master采用的是两台HMaster做一个HA。从CDH管理界面查询启动成功后,HBase Master状态并不太正常(如下图所示),以上截图看似正常,实质不正常。正常情况下两个HMaster主备可用时,Master后面应该有一个标识是活动还是备份的状态,但上面图片中缺少状态信息。于是查看两个HMaster日志,其中一台HBase Master日志信息正常,另外一台HBase Master日志一直在刷SplitL原创 2020-06-20 20:56:07 · 2596 阅读 · 2 评论 -
CDH5删除数据节点
本文介绍如何在CDH Hadoop集群中动态删除数据节点。在做动态删除数据节点之前我们已经有一套CDH集群环境。下面步骤为删除一个数据节点的步骤,选择要删除的节点选择菜单栏"主机",勾选要删除的节点停止主机上的所有角色勾选节点后,从"已选定的操作"下拉框中,选择"停止主机上的角色"完成之后可以看到节点上的所有角色处于停止状态解除授权勾选节点后,从"已选定的操作"下拉框中,选择"Begin Maintenance(Suppress Alerts/Decommission)"完成原创 2020-06-10 14:27:29 · 2018 阅读 · 0 评论 -
HDFS启动报错Expected to be able to read up until at least txid but unable to find any edit logs
现象Hadoop集群出现了异常断电后,HDFS启动报错,报错信息截图如下,解决Hadoop NN中的元数据包括:fsimage:包含某个时间点的文件系统的完整状态edit logs:包含在最近的fsimage之后进行的每个文件系统更改(文件创建/删除/修改)。当NN启动时,Hadoop将加载fsimage并应用所有编辑日志,同时进行大量的一致性检查,如果检查失败,它将中止。当我们将NN工作区中的edits_0000000000000000001-0000000000000000002 删掉时,原创 2020-06-02 18:19:40 · 1225 阅读 · 0 评论 -
CDH Agent起不来-Could not determine hostname or ip address; proceeding.
现象某CDH Hadoop集群环境在重启机器后Agent无法启动,报错信息如下,[17/Dec/2019 16:37:53 +0000] 6741 MainThread agent ERROR Could not determine hostname or ip address; proceeding.Traceback (most recent call last):...原创 2019-12-17 17:38:30 · 977 阅读 · 0 评论 -
HDFS missing blocks的处理办法
Hadoop集群中遇到了HDFS missing blocks的错误,处理办法如下:切换到hdfs用户su - hdfs使用hadoop fsck命令检查坏的块hadoop fsck /输出示例如下 ,.../user/trafodion/.hiveStats/HIVE.DMA.DMA_ENTTYPE_STAT_ORC-1532663517555-NOSTRIPENUMR...原创 2019-12-11 11:46:55 · 9453 阅读 · 1 评论 -
Clouderera SCM Server启动失败之pam_unix(sshd:session) session closed for user root分析定位
昨天在某客户环境进行CDH Hadoop的安装,安装还算比较顺利,但在启动Cloudera SCM Server和Agent服务的时候均启动失败。[root@YXnode01 ~]# service cloudera-scm-server restartRestarting cloudera-scm-server (via systemctl): Job for cloudera-scm-s...原创 2019-11-05 14:43:53 · 13943 阅读 · 0 评论 -
CDH HIVE报错引发的一系列血案
今天偶尔发现一个CDH集群中的Hive MetaStore Server发生了异常,于是检查相关日志,具体日志为Hive MetaStore Server所在节点的/var/log/hive/hadoop-cmf-hive-HIVEMETASTORE-sbh01.esgyn.cn.log.out,日志报错如下,2019-10-31 06:22:51,467 INFO org.apache.ha...原创 2019-11-02 15:06:20 · 1917 阅读 · 0 评论 -
HDFS failover启动错误Parent znode does not exist
现象HDFS配置了高可用,NameNode和DataNode状态看起来均正常,但两个failover进程异常。查看failover日志,报错信息如下,tail -100f /var/log/hadoop-hdfs/hadoop-cmf-hdfs-FAILOVERCONTROLLER-hxpernode01.esgyn.cn.log.out2019-10-24 19:51:13,396 F...原创 2019-10-24 21:18:39 · 790 阅读 · 1 评论 -
CDH5 添加数据节点
本文介绍如何在CDH Hadoop集群中动态添加数据节点。添加节点之前需要准备好一台新的机器,Linux版本最好跟原有集群中其他机器保持相同,然后便是基本的Hadoop安装之前的配置,如关闭防火墙、开启ntpd服务、关闭Selinux、配置/etc/hosts等等,具体可参考另一篇文章“CDH 5.8 离线安装 ”中关于安装前配置那一部分, http://blog.csdn.net/post_yua原创 2017-01-19 11:18:42 · 7263 阅读 · 0 评论 -
CDH5 配置LZO
本文通过实例讲述在CDH5下面配置LZO压缩的过程,1 下载parcel(选择合适的版本),下载地址: http://archive-primary.cloudera.com/gplextras/parcels/latest/ ;下载.parcel文件及manifest.json文件,下载完成后在manifest.json中找到对应的hash值并写到.parcel.sha文件[root@cent-1原创 2017-01-09 11:39:44 · 2279 阅读 · 0 评论 -
CDH 5.8 离线安装
本文介绍在CentOS 6环境下离线安装CDH 5.8(两个节点)。主要步骤如下,1 安装前配置(1)配置host name,同步集群每个节点[root@cent-1 centos]# cat /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 lo原创 2017-01-17 14:53:24 · 3397 阅读 · 0 评论 -
CDH 系统优化之关闭透明大页面及设置swappiness
安装完CDH后,CDH Manager一般会提示用户需要做一些Linux系统层面的优化,主要包括两类:禁止透明大面及交换分区设置。详情请参考Cloudera官方网址:https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_admin_performance.html本文描述一下如何执行这个优化工作,以CentOS为例1原创 2017-02-10 12:17:31 · 7030 阅读 · 0 评论 -
CDH 5.X 卸载
本文通过实践过程详细描述卸载CDH 5.X的一般步骤。1 通过Cloudera Manager UI关闭集群所有服务。URL:http://Cloudera_Manager_Ip:7180/cmf/home2 通过Cloudera Manager UI删除集群。3 停止并删除Cloudera Manager服务。此时Web UI应该是这样的,原创 2016-10-28 10:59:46 · 926 阅读 · 0 评论 -
cloudera-scm-server-db 启动失败
现象cloudera-scm-server-db 启动失败,[root@esggy-delivery-1 cloudera-scm-server]# service cloudera-scm-server-db startStarting cloudera-scm-server-db (via systemctl): Job for cloudera-scm-server-db.service原创 2017-11-14 09:03:52 · 9220 阅读 · 0 评论 -
Cloudera 安装parcel hang的问题
现象在安装Cloudera 服务的时候,到安装Parcel那一步时,有一个节点安装parcel一直hang住不动,如下图 查看/var/log/cloudera-scm-agent/cloudera-scm-agent.log日志一直报以下错误信息,Traceback (most recent call last): File "/usr/lib64/cmf/agent/build/en原创 2017-11-24 09:27:20 · 2474 阅读 · 3 评论 -
Cloudera 配置NameNode HA
本文通过实际操作详细描述如何配置HDFS NameNode的HA(注意:只是HDFS NameNode HA,不包括其他组件如Hive Metastore等) 首先得声明配置NameNode HA的两点前提条件:至少是3个或3个以上奇数个JournalNode,否则将无法继续配置NameNode HA.配置NameNode需要有Zookeeper.上述两点十分重要,因为很有可能在配置HA的过原创 2017-11-24 17:29:58 · 3526 阅读 · 0 评论 -
Cloudera 安装Parcel提示主机运行状况不良
现象通过Cloudera WEB界面安装Hadoop过程中,在安装Parcel步骤时,一个节点分配激活失败,报错信息显示”主机运行状况不良”,如下图所示。解决删除agent目录下面的cm_guid文件,并重启失败节点的agent服务恢复。[root@esgyn001 ~]# cd /var/lib/cloudera-scm-agent/cm_guid res原创 2018-01-18 22:41:02 · 6265 阅读 · 0 评论 -
Cloudera 开启Kerberos安全认证
Cloudera Hadoop默认安装完后不具有安全特性,如需开启安全认证,可通过CDH Manager管理界面开户Kerbeors安全认证,当然前提是已经具备一个已经搭建好的KDC服务器。本文在具备一个已存在的KDC服务器的前提下,描述如何通过CDH Manager开户Kerberos认证。1 在所有节点安装Kerberos客户端yum -y install krb5-worksta...原创 2018-05-04 10:43:28 · 1455 阅读 · 0 评论 -
EsgynDB安装系列之配置MySQL作为CDH元数据库
之前在安装CDH时,一般都使用CM自带的cloudera-manager-server-db-xxxx.rpm包来作为CDH后台的元数据库,用于存储相关的元数据信息,这个rpm对应PostgreSQL数据库。不过安装完后,CDH会显示一个警告信息,即不建议生产环境用自带的PostgeSQL作为元数据库,建议使用外部的数据库如MySQL、Oracle,我想主要可能是考虑可管理性和稳定性因素。那么...原创 2018-07-27 13:21:11 · 1465 阅读 · 0 评论 -
Cloudera Agent错误Cannot assign requested address
现象Cloudera Agent服务已经启动,但报HeartBeat错误,意味着Agent与Server通信有问题。查看Cloudera Agent日志报错如下,[22/Feb/2019 16:05:19 +0000] 15199 MainThread _cplogging INFO [22/Feb/2019:16:05:19] ENGINE Started monitor th...原创 2019-02-22 18:25:27 · 1447 阅读 · 0 评论 -
EsgynDB Troubleshooting-Problem binding to /0.0.0.0:60020 : Address already in use.
现象EsgynDB所在的集群,HBase有4台RegionServer,因某种原因有一个RegionServer下线。从CDH Manager中手动启动此RegionServer无法启动,报错信息如下,2019-08-03 10:40:48,501 ERROR org.apache.hadoop.hbase.regionserver.HRegionServerCommandLine: Reg...原创 2019-08-03 15:40:59 · 936 阅读 · 0 评论 -
CDH 修改集群IP
最近遇到一个Case:客户原来的Hadoop集群的物理机要迁移至别的地方,这将导致物理机的IP要更换。这让我不禁想到一个问题:CDH Manager页面中的主机IP的信息究竟是保存在哪里的?后来才明白,CDH Manager在安装的时候会配置相应的数据库,用来保存集群所有的配置信息,因此这里的节点的IP也是保存在这个数据库中,所以如果更换了节点的IP,就必须要更新此数据库的配置信息。具体步骤如下,1原创 2017-04-19 10:48:45 · 4407 阅读 · 3 评论