【大数据】CDH管理及优化
【大数据】CDH管理及优化
北京小辉
余辉,硕士毕业于中科院,从事IT行业12年。专注于大数据、云数据、用户画像、推荐算法。在数据团队担任过的角色:研发、架构师、负责人、讲师。数据知识产权:出版大数据书籍【1】本,论文【2】篇,软著【6】篇,专利【65】篇。
展开
-
CDH--HDFS和Yarn存储不足
备注:最近公司CDH集群中的某个DataNode存储一直报警,分析如下:1)一个集群有多个DataNode2)一个DataNode的数据会存储在多个路径。eg: /data1,/data2,/data3等等3)/data3 路径下面除了【/data3/dfs/dn】和 【/data3/yarn/nm】路径还会有其余文件,导致路径文件过大,同时CDH的 balancer 的平衡机制无法平衡4)解决方法:清除路径多余文件,或者在CDH中的DataNode移除对应路径5)无论DataNode还是y原创 2020-08-18 16:06:58 · 868 阅读 · 0 评论 -
大数据系列的默认端口(hbase,hadoop,hived等)
组件Daemon端口配置说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口,用于数据传输50075dfs.datanode.http.addresshttp服务的端口50475dfs.datanode.https.addresshttps服务的端口50020dfs.data...原创 2019-06-20 17:04:31 · 10466 阅读 · 5 评论 -
CDH5.14.4之HDFS-Hbase-Yarn的高可用配置
需求:CDH5.14.4需要将HDFS、Hbase、Yarn做一个高可用设置HDFS高可用配置前提:在搭建cdh的时候是有一个secondNameNode角色,而在做HDFS的HA机制的时候会删除这个角色。同时需要JournalNode角色。步鄹如下:HDFS高可用结果如下:Hbase高可用配置Hbase高可用如下:Yarn高可用配置...原创 2019-03-18 16:09:11 · 1492 阅读 · 0 评论 -
CDH邮件报警配置(亲测)
cloudera manager提供邮箱警告功能,方便管理员在集群出现问题的第一时间维护集群。具体操作如下:1.登录cloudera manager页面,进入cloudera manager service服务2.点击配置,在搜索框中写入alert:3.邮箱服务器密码的获取方法:这里很重要:进入发件人的qq邮箱,用户-账户-smtp开启-服务码,具体方法可以问度娘,这里不详述。将授权...原创 2019-03-07 14:32:06 · 3053 阅读 · 9 评论 -
CDH5.14.4离线安装Spark2.2.0详细步骤
目录一、简介:二、安装准备三、开始安装一、简介:在我的CDH5.14.4集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。这里做一下安装spark2.1版本的步骤记录。二、安装准备csd包:http...原创 2019-03-19 11:48:22 · 8311 阅读 · 3 评论 -
CDH5.14 Impala的静态资源和动态资源设置
目录1、静态资源和动态资源说明2、静态资源设置3、使用准入控制4、设置每个查询的内存限制5、创建动态资源池6、关于放置规则7、设置资源池上的权限控制1、静态资源和动态资源说明官网 https://www.cloudera.com/documentation/enterprise/5-14-x/topics/impala_howto_rm.html名称说明...原创 2018-10-30 21:24:57 · 4971 阅读 · 0 评论 -
HDFS 的Trash回收站功能的配置、使用
文件的删除和恢复 和Linux系统的回收站设计一样,HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户通过Shell删除的文件/目录,在系统回收站中都一个周期,也就是当系统回收站中的文件/目录在一段时间之后没有被用户回复的话,HDFS就会自动的把这个文件/目录彻底删除,之后,用户就永远也找不回这个文件/目录了。在HDFS内部的具体实现就是在Name原创 2016-12-28 11:40:29 · 12693 阅读 · 0 评论 -
CDH5.14定期清理指南
目录:1、将HDFS备份数降低2、删除无用HDFS数据和Hbase表格3、设置kafka的日志时间4、删除本机无用文件5、清理Trash回收站6、Balancer重新平衡————————————————————————————————————————————————1、将备份数降低 1)将默认的备份数3设置为2。 步鄹:CDH–>HDFS–>配置–>复制因子–>设置为2 2)执行命令:原创 2017-01-03 16:25:12 · 10284 阅读 · 0 评论 -
CDH动态资源池--yarn资源的任务队列
需求:1、让不同的application任务,在不同的队列中运行任务2、这些队列是并行执行的,相互不干扰目录:1、队列的配置2、队列运行命令3、队列运行展现1、队列的配置2、队列运行命令3、队列运行展现原创 2017-01-03 16:36:22 · 8603 阅读 · 0 评论 -
CDH5.14安装指南和维护(亲自搭建好多次)
目录:1、安装文件准备2、系统环境准备3、cloudera manager 调优4、Cloudera Manager安装5、CDH安装6、常用工具地址7、一些常见问题————————————————————————————————————–1、安装文件准备CDH下载地址:http://archive.cloudera.com/cdh5/parcels/latest/下载操作系统对应的版本:1.CDH原创 2017-02-06 15:56:54 · 10523 阅读 · 13 评论 -
CDH集群迁移
目录一:集群搭建二:hdfs数据迁移三:kafka节点添加四:hbase数据迁移———————————————————————————————————–一:集群搭建参考:http://blog.csdn.net/silentwolfyh/article/details/54893826二:hdfs数据迁移准备工作 1、新集群搭建完毕 2、新老机器所有yarn节点可以ping通 3、命令,在老集原创 2017-02-06 16:06:09 · 4384 阅读 · 0 评论 -
CDH启动和日志和组件lib包路径查看
目录:cdh集群启动cdh集群Linux日志查看cdh集群管理界面日志查看——————————————————————————————————cdh集群启动备注:公司CDH集群为CDH-5.7.1版本1)登录Master机器 执行命令: /opt/cm-5.7.1/etc/init.d/cloudera-scm-server start2)登录集群所有agent机器 执行命令: /opt/c原创 2017-03-02 12:58:56 · 11554 阅读 · 0 评论 -
CDH问题及维护汇总
目录:一、HIVE错误二、HDFS错误三、oozie错误四、Kafka错误五、Hbase错误六、Yarn和CM错误七、维护及添加服务八、其他错误————————————————————————————————————————————一、HIVE错误错误01命令详细信息: 创建 Hive Metastore 数据库表 解决办法: cp -r /var/lib/hive/mysql-con原创 2017-05-22 19:21:27 · 17943 阅读 · 1 评论 -
kakfa的维护:Brock停止
错误1:kakfa的Brock停止org.apache.spark.SparkException: Couldn’t find leader offsets for Set()原因:1、TopicName复制数Replication为1; 2、TopicName的Partitions一部分落在Brock上面,而这个Brock没有复制数,导致Partitions丢失原创 2017-01-04 13:26:18 · 1240 阅读 · 0 评论 -
kakfa的维护:CDH的kafka及kafka manager安装
CDH的kafka安装 第一步 下载,分配,激活parcel第二步 每台机器broker设置【broker.id】,第一行是路径,第二行是要修改的【broker.id=1】,参考下图的【broker.id】/opt/cloudera/parcels/KAFKA-3.1.1-1.3.1.1.p0.2/etc/kafka/conf.dist/server.properties ...原创 2016-05-26 11:24:31 · 1884 阅读 · 0 评论