大数据
成伟平2022
不积跬步无以至千里,不积小流无以成江海。
展开
-
hdfs操作类
ManagerHdfsUtil.classpackage cn.getech.data.manager.utils;import cn.getech.data.development.constant.DataDevelopmentBizExceptionEnum;import cn.getech.data.intelligence.common.exception.RRException;import cn.getech.data.manager.config.ManagerDataCon.原创 2021-05-08 17:10:51 · 213 阅读 · 0 评论 -
通过oozie调度shell脚本提交spark程序到yarn中,用户显示nobody问题解决
问题:当用oozie工作流,调度执行shell脚本,shell脚本中提交spark程序,application任务列表user列显示nobody。解决办法,增加--proxy-user 属性设置用户为hdfs./bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cluster \--driver-memory 1g \--executor-m...原创 2021-05-06 20:07:36 · 307 阅读 · 0 评论 -
cdh查看namenode高可用nameservice名称
cdh 查看 namenode 高可用nameservice名称,如下图所示:第一步:第二步:第三步:原创 2021-03-18 14:38:43 · 1375 阅读 · 0 评论 -
CDH大数据集群管理后台CM查看YARN日志方式讲解
查看YARN中作业的两种日志方式如下:方式一: 同规格ResourceManagerWeb UI 查看日志:1.1 先找到ResourceManager角色所在服务器的IP地址,可通过如下图方式进行查看。 CM操作路径:集群-YARN-实例-ResourceManage角色-主机。1.2 然后查找端口,通过查找yarn-site配置项 yarn.resourcemanger.webapp.address 的值,默认是8088. 如下图所示。操作路径:集群-YARN-配置...原创 2021-02-06 22:35:24 · 2454 阅读 · 0 评论 -
java.net.SocketTimeoutException: Read timed out 问题解决
问题描述:今天开发时发现,jdbc hive 连接执行 一个 hive sql 查询语句时,总是报org.apache.thrift.transport.TTransportException: java.net.SocketTimeoutException: Read timed out 异常问题解决方案: 通过一番分析与问题查找,最终通过以下两个步骤解决了问题步骤一: 在jdbc url 后面追加参数 ,设定客户端连接元数据的超时时间为1800秒,因为hive任务可能会...原创 2021-02-04 12:44:27 · 25253 阅读 · 1 评论 -
CDH大数据笔记
启动cloudera-scm-agent命令systemctl start cloudera-scm-agent关闭cloudera-scm-agent命令systemctl stop cloudera-scm-agent开机自动启动cloudera-scm-agent命令systemctl enable cloudera-scm-agent禁止开机自动启动clouder-scm-agent命令systemctl dis...原创 2020-11-14 20:16:09 · 268 阅读 · 0 评论 -
使用 docker 安装大数据 Cloudera CDH 单节点集群教程
第一步:下载镜像docker pull cloudera/quickstart第二步:运行容器docker run \ -id \ --hostname=quickstart.cloudera \--privileged=true \ -p 8020:8020 -p 7180:7180 -p 21050:21050 -p 50070:50070 -p 50075:50075 \ -p 50010:50010 -p 50020:50020 -p 8890:8890 -p 6.原创 2020-09-26 23:38:47 · 2141 阅读 · 1 评论