hadoop
文章平均质量分 63
青山流水在深谷
大数据开发
展开
-
断电后CDH集群艰难重启之路
1.问题描述运维在凌晨断电重启服务器后,因未忘记将测试环境集群CDH关闭,导致CDH的 server/agent集群,Zookeeper集群,hdfs集群,yarn无法重启,监控指标全部消失,症状如下cdh各个节点无状态agent启动失败zookeeper启动顺序CDH server agentzookeeper集群hdfs集群yarn集群启动CDH集群启动server后发现没问题,但是启动server所在的agent时,老是出错,启动后很快退出,查看日志原创 2022-04-12 16:06:06 · 4119 阅读 · 0 评论 -
hdfs 审计日志解析
前言近期,数据仓库因为积压数据较大,故对数据访问进行统计,进而计算数据生命周期,决定是否删除,但是对于不同用户的访问,无法做到统计所有访问入口,故从最底层的hdfs审计日志进行解析,对hdfs namenode的审计日志解析,获取当前数据的访问时间,访问目录,访问用户等信息,进行整理数据访问生命周期审计日志类型审计日志大致分两类,read/write,通过分析源码找到其包含类型OperationCategory.READoperationName = "listOpenFiles";ope原创 2021-05-30 21:59:16 · 1609 阅读 · 0 评论 -
HDFS垃圾回收-数据恢复
垃圾回收策略同linux系统,hdfs会为每个用户创建一个回收站目录, /user/用户名/.Trash,每个被用户用hdfs dfs -rm [-r] 删除的文件、目录,都会放到 /user/用户名/.Trash 目录中用户若删除了某个文件、目录,可以在用户垃圾回收站恢复该文件、目录/user/用户/.Trash/Current目录仅仅保存被删除 文件的最近一次拷贝测试1.上传hdfs dfs -put yunsong_applist.sh /tmp/demo2.删除文件,文件移动到当前原创 2021-05-28 10:35:57 · 1114 阅读 · 0 评论 -
hadoop 垃圾箱
1.Hdfs开启垃圾箱(默认设置为0不开启):<property><name>fs.trash.interval</name><value>1440</value><description>Numberofminutesbetweentrashcheckpoints.Ifzero,thetrashfeatureisdisabled.</...原创 2020-11-26 19:41:53 · 514 阅读 · 0 评论 -
Hadoop空闲时无法提交任务
一、问题描述在用hive提交MR任务时,发现在队列空闲时,提交的application无法能够进入RUNNING,一直处于ACCEPTED。查看日志发现在6.8号也在报相同错误(如下)2020-06-08 08:10:36,714 INFO org.apache.hadoop.yarn.server.resourcemanager.RMAppManager$ApplicationSummary: appId=application_1573631365527_158284,name=select c原创 2020-10-29 17:43:14 · 693 阅读 · 0 评论 -
Hive on Spark安装指南
hive安装:下载后解压(通过github 中的hive pom.xml查看对应的spark版本,进而决定是否和spark匹配)[github hive源码3.0版本] (https://github.com/apache/hive/tree/branch-3.0)版本对应如下spark hive2.3.0 3.1/3.02.0.0 2.31.6.0 2.2如果...原创 2019-11-25 12:00:24 · 291 阅读 · 0 评论 -
Hadoop JPS 进程名无法显示
1.jps无法查看进程名:2897 ExecutorLauncher16994 CoarseGrainedExecutorBackend17044 QuorumPeerMain6932 NameNode16966 CoarseGrainedExecutorBackend6503 DataNode27735 -- process information unavailable764...原创 2019-03-28 10:34:04 · 1605 阅读 · 0 评论 -
spark + hadoop 访问 基于Kerberos 安全认证、授权的hdfs集群
1.在本地安装kerberos client 组件yum install krb5-user libpam-krb5 libpam-ccreds auth-client-configyum install krb5-workstation2.拷贝kerberos 集群的 /etc/krb5.conf 到本地 的 /etc/ (覆盖组件初始化的krb5.conf)3.拷贝...原创 2019-03-16 12:34:13 · 6850 阅读 · 1 评论 -
基于ambari+hdfs 搭建Kerberos集群
1.下载jce并解压至JAVA_HOME/jre/lib/security目录下,AMbari所有节点均需要http://www.oracle.com/technetwork/java/javase/downloads/jce8-download-2133166.htmlunzip -o -j -q jce_policy-8.zip -d$JAVA_HOME/jre/lib/secur...原创 2019-03-16 12:14:11 · 1570 阅读 · 0 评论 -
pyspark RDD 入门
#import pyhdfs#顶级项目目录#from spark.demo import demo2#! /usr/bin/python# -*- coding:utf-8 -*-import sysfrom pyspark.sql import SparkSessionimport operator as opclass PropertiesUtil: ...原创 2018-07-30 03:35:41 · 496 阅读 · 0 评论 -
spark-submit 以yarn-cluter 提交job 定位错误之旅
最近用spark结合开发spark程序,发现挺方便,但是遇到不少问题,其中就是spark-submit 提交作业,折腾了我一天,闲言少叙,上问题:1.提交作业spark-submit --class com.myd.cn.SparkTest --master yarn --deploy-mode cluster --executor-memory 2g --jars /...原创 2018-04-01 11:24:34 · 1499 阅读 · 0 评论 -
Spark+hadoop 开发总结
错误总结:1.Caused by: java.lang.ClassNotFoundException: scala.xml.MetaData解决:POM配置依赖dependency>dependency>2.版本冲突Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.$scope()Lsca原创 2018-01-22 14:37:54 · 4216 阅读 · 0 评论 -
connect to host hadoop port 22: No route to host
connect to host hadoop port 22: No route to host原创 2017-09-15 10:09:54 · 8099 阅读 · 0 评论 -
hadoop 报错:Unable to find SASL server implementation for
0002_000002. Got exception: org.apache.hadoop.security.AccessControlException: Unable to find SASL server implementation for DIGEST-MD5 at sun.reflect.NativeConstructorAccessorImpl.newInstance0(j原创 2017-09-14 11:10:39 · 1019 阅读 · 1 评论