大数据运维
文章平均质量分 75
学习大数据的运维,组件监控和数据质量的监控分享
阿龙先生啊
懂点大数据运维, 会写两三行代码,自学了一些 docker, kubernetes。博客主要分享大数据、Linux、云原生相关知识。 目前职位大数据工程师,长远打算做个会敲代码的厨子。
展开
-
【DataSophon】DataSophon1.2.1 ranger usersync整合
一、简介一、简介如下是DDP1.2.1默认有的rangerAdmin, 我们需要将rangerusersync整合进来 ,实现将Linux机器上的用户和组信息同步到RangerAdmin的数据库中进行管理。原创 2024-07-08 09:20:11 · 1480 阅读 · 57 评论 -
【DataSophon】DataSophon1.2.1服务组件开启 kerberos
DataSophon也是个类似的管理平台,只不过与智子不同的是,智子的目的是锁死人类的基础科学阻碍人类技术爆炸,而DataSophon是致力于自动化监控、运维、管理大数据基础组件和节点的,帮助您快速构建起稳定,高效的大数据集群服务。原创 2024-07-04 09:26:03 · 1921 阅读 · 60 评论 -
【中间件】Pulsar集群安装
一、Pulsar介绍一、Pulsar介绍1.1 Pulsar基本介绍pulsar是一个云原生企业级的发布订阅(pub-sub)消息系统,最初由Yahoo开发,并于2016年底开源,现在是Apache软件基金会顶级开源项目。Pulsar在Yahoo的生产环境运行了三年多,助力Yahoo的主要应用,如Yahoo Finance、Yahoo Sports、Flickr、Gemini广告平台和Yahoo分布式键值存储系统Sherpa。原创 2024-06-13 08:42:49 · 1991 阅读 · 74 评论 -
【Ambari】Ansible自动化部署大数据集群
ansible 自动化安装ambari原创 2024-04-07 08:38:42 · 4302 阅读 · 154 评论 -
【调度工具】Azkaban用户手册
Azkaban 是由 Linkedin 开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban 定义了一种 KV 文件格式来建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。原创 2024-04-03 09:21:31 · 2234 阅读 · 112 评论 -
【DataSophon】大数据服务组件之Flink升级
DataSophon也是个类似的管理平台,只不过与智子不同的是,智子的目的是锁死人类的基础科学阻碍人类技术爆炸,而DataSophon是致力于自动化监控、运维、管理大数据基础组件和节点的,帮助您快速构建起稳定,高效的大数据集群服务。为设计出轻量级,高性能,高可扩的,可满足国产化环境要求的大数据集群管理平台。(1)一次编译,处处运行,项目部署仅依赖java环境,无其他系统环境依赖。原创 2023-12-17 13:12:13 · 14107 阅读 · 132 评论 -
【DataSophon】大数据管理平台DataSophon-1.2.1基本使用
DataSophon也是个类似的管理平台,只不过与智子不同的是,智子的目的是锁死人类的基础科学阻碍人类技术爆炸,而DataSophon是致力于自动化监控、运维、管理大数据基础组件和节点的,帮助您快速构建起稳定,高效的大数据集群服务。原创 2023-12-16 13:31:55 · 2764 阅读 · 81 评论 -
【DataSophon】大数据管理平台DataSophon-1.2.1安装部署详细流程
DataSophon也是个类似的管理平台,只不过与智子不同的是,智子的目的是锁死人类的基础科学阻碍人类技术爆炸,而DataSophon是致力于自动化监控、运维、管理大数据基础组件和节点的,帮助您快速构建起稳定,高效的大数据集群服务。原创 2023-12-14 08:39:47 · 6191 阅读 · 104 评论 -
【大数据基础平台】星环TDH社区集群版本部署
TDH企业级一站式大数据基础平台致力于帮助企业更全面、更便捷、更智能、更安全的加速数字化转型。通过数年时间的打磨创新,已帮助数千家行业客户利用大数据平台构建核心商业系统,加速商业创新。为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,依托于TDH强大的技术底座,星环科技推出TDH社区版(Transwarp Data Hub Community Edition)版本,致力于为企业用户、高校师生、科研机构以及其他专业开发人员提供更轻量、更简单、更易用的数据分析开发环境,轻松应对各类人员数据分析需求。原创 2023-11-02 19:18:13 · 3029 阅读 · 85 评论 -
【大数据基础平台】星环TDH社区开发版单机部署
TDH企业级一站式大数据基础平台致力于帮助企业更全面、更便捷、更智能、更安全的加速数字化转型。通过数年时间的打磨创新,已帮助数千家行业客户利用大数据平台构建核心商业系统,加速商业创新。为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,依托于TDH强大的技术底座,星环科技推出TDH社区版(Transwarp Data Hub Community Edition)版本,致力于为企业用户、高校师生、科研机构以及其他专业开发人员提供更轻量、更简单、更易用的数据分析开发环境,轻松应对各类人员数据分析需求。原创 2023-10-30 20:41:25 · 2753 阅读 · 100 评论 -
【Ambari】Ambari-Ranger组件修改MySQL默认3306端口导致启动失败问题解决( Communications link failure)
搜索 jisql_cmd 的位置找到 jdbc:mysql:// 的地方手动修改就可以了,Ambari的版本不同, jdbc:myql 的位置可能不同。但是做了以上的 配置后没有我又改了回去,排除了这种可能,于是觉得是不是Ranger 的坑 ,于是网上一搜,果然有人碰到了。问题就出在这里了,由于生产环境改了MySQL的默认端口,然而 ranger 的启动脚本使用的是默认的MySQL 端口。起初真的以为是 MySQL什么连接超时原因,但我还是不敢确定,因为以前用MySQL默认的端口没有什么问题啊。原创 2020-08-27 11:35:46 · 1048 阅读 · 0 评论 -
【Ambari】Ambari2.7.3安装报错 Cannot find a valid baseurl for repo: HDP-3.1-repo-1
HDP 版本问题,Ambari2.7.3原创 2022-06-25 18:45:14 · 1094 阅读 · 0 评论 -
【Ambari】Ambari2.6.5 安装NetUtil.py:97 - SSLError: Failed to connect. Please check openssl library ...
🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬请批评指正!二、Ambari-agent 安装报错如下。原创 2021-06-09 18:38:36 · 706 阅读 · 1 评论 -
Job aborted due to stage failure: Total size of serialized results of 3 tasks (1074.3 MB) is bigger
Spark任务运行报错如下:21/10/09 15:49:31 INFO DAGScheduler: Job 0 failed: collect at TrackDataSourceWrite.scala:190, took 94.206171 sorg.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 3 tasks (1074.3 MB) is...原创 2021-10-09 18:27:00 · 1808 阅读 · 0 评论 -
org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow
运行Spark任务报错如下:21/10/09 14:56:32 ERROR Executor: Exception in task 1.0 in stage 2.0 (TID 4)org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, required: 93. To avoid this, increase spark.kryoserializer.buffer....原创 2021-10-09 17:34:40 · 1774 阅读 · 0 评论 -
send message failed [channel: Netty4TcpChanne GC (Allocation Failure, ParNew Desired survivor size
安装 ES 完成后,启动报错。于是查看 log查看 myes.log 报的错如下send message failed [channel: Netty4TcpChannel{localAddress=0.0.0.0/0.0.0.0:5teAddress=no网上 查找 解决之法 ,说是 gc 的问题 ,就是 上面的 gc.log.0.current 错误如下 ,没...原创 2020-02-07 23:51:49 · 5138 阅读 · 0 评论 -
zk 启动失败 报 “ Unable to load database on disk”
问题:一个 ZK启动不了 , 在 zookeeper.out 中 报了如下的 异常2020-01-21 18:39:59,277 [myid:2] - ERROR [main:QuorumPeer@557] - Unable to load database on diskjava.io.IOException: Found T1 in /export/servers/zookeep...原创 2020-01-21 22:36:36 · 3297 阅读 · 0 评论 -
java.io.IOException: java.net.ConnectException: Call From node01/192.168.100.10 to node01:10020 fail
java.io.IOException: java.net.ConnectException: Call From node01/192.168.100.10 to node01:10020 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: ht...原创 2019-11-01 20:02:19 · 3773 阅读 · 1 评论 -
AMS启动报错 hbase-ams-master.pid doesn‘t exist after starting of the component
Ambari Metrics, Metrics Collector 启动报错如下:stderr:stdout:根据上面 的日志分析是AMS 自带的HBase 问题,所以解决方法想到了 删除数据让服务自动重建数据库。原创 2023-05-16 14:31:29 · 821 阅读 · 1 评论 -
【可视化工具】kafka-manager配置及安装Kerberos(Ambari-HDP)认证
为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager(已改名为 cmak)。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。原创 2023-03-20 19:02:47 · 2290 阅读 · 4 评论 -
【可视化工具】Kafka-Offset Explorer使用
Offset Explorer(以前称为Kafka Tool)是一个用于管理和使Apache Kafka ®集群的GUI应用程序。它提供了一个直观的UI,允许人们快速查看Kafka集群中的对象以及存储在集群主题中的消息。它包含面向开发人员和管理员的功能。二、环境信息系统环境:windows 10版本:2.2Kafka版本:Kafka2.0.0三、安装和使用3.1 下载Offset Explorer 和安装下载到本地的 .exe文件Next安装路径 ,Next。原创 2023-03-20 18:09:34 · 22387 阅读 · 1 评论 -
Docker-hue 缺少 kerberos 依赖解决
Docker-hue 缺少 kerberos 依赖解决原创 2022-06-15 19:12:12 · 532 阅读 · 0 评论 -
Hue学习笔记 (一)---入门学习
目录Hue 是什么 Hue 能做什么Hue 的架构 hue集成Oozie 调度 shell程序执行shell 脚本利用 hue 调度 hive 脚本 利用 Hue 集成 Oozied配置定时调度任务 ...原创 2019-11-01 20:50:09 · 1196 阅读 · 0 评论 -
【大数据生态】Oozie 入门学习
目录Oozie是什么 Oozie 的架构Oozie 基本原理 概括的知识框架Oozie 调度 shell 脚本 Oozie 定时调度Oozie是什么 Oozie 是一个用来管理 Hadoop 生态圈 job 的工作流调度系统。由 Cloudera 公司贡献给 Apache。Oozie 是运行于 Java servlet 容器...原创 2019-10-31 16:41:17 · 459 阅读 · 2 评论 -
hue 安装时报的错(Couldn‘t get user id for user hue & Permission denied)
说一下 配置 :centOS 6 ,hadoop-2.7.5编译报错:EnvironmentError: mysql_config not found 安装mysql相关的python包时,mysql_python .....解决:export PATH=$PATH:/usr/local/mysql/binyum install python-devel mysql-de...原创 2019-10-30 20:23:45 · 434 阅读 · 0 评论 -
Class org.apache.hadoop.mapred.ShuffleHandler not found
启动CDH-5.15时报错如下解决方式创建 mapreduce 的软链接cd /hadoop/software/hadoop-2.6.0-cdh5.15.0/share/hadoopln -s mapreduce2 mapreduce解决原创 2021-09-11 17:01:38 · 521 阅读 · 0 评论 -
Exception in thread “main“ org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for sc
如下方式运行jar包:java -Xmx200m -Xms100m -classpath /hadoop/software/apache-flume-1.9.0-bin/project/dataplat-ipva-local.jar com.winnerinf.dataplat.hdf s.DataCollectionFailover报错如下:Exception in thread "main" org.ap...原创 2021-06-25 19:17:32 · 3649 阅读 · 9 评论 -
【Hadoop】程序运行异常 “No FileSystem for scheme “hdfs“ “
目录一、目的二、报错如下三、解决一、目的使用 java -classpath com.kangna.hdfs.HDFSFileDelSkipTrash HDFSFileDelSkipTrash.jar 起动一个客户端的程序,删除HDFS 垃圾文件二、报错如下Exception in thread "main" org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for sch...原创 2021-03-25 14:39:18 · 7198 阅读 · 0 评论 -
【Linux】资源信息统计写入SQLServer(学习Linux命令awk,sed)
Shell实现资源信息获取写入数据库。2.2.Shell 实现系统资源信息同步。一、Linux资源统计命令使用。1.5.系统最近15分钟的负载。1.6.系统连续运行时长。1.2.数据盘的使用率。原创 2020-12-23 22:26:38 · 390 阅读 · 0 评论 -
【Ambari】组件状态从MySQL同步到SQLServer或者MySQL
上面这个SQL语句查询出来是 STARTED 的状态,也就是组件的最新状态,当第一次查询时,我们要将组件全部最新状态同步到 要查询的数据库中,如果哪个组件停掉,上面的 SQL的 就不会查询出来,查询出来的还是 STARTED 状态,我们只需要 将 最新状态的临时表和 目标表关联 ,将关联不到的 STATED的 状态的组件 状态更新为 STOPED 即可,就可以实现集群监控信息 的同步。xxx 是不同的客户不同的数据库 可以读取多个数据库的配置写到不同的SQLServer数据库。原创 2020-12-22 22:23:38 · 2007 阅读 · 6 评论 -
【进程】Azkaban 进程和任务监控(任务状态从MySQL同步到SqlServer或者MySQL)
监控 Azkaban-web和Azkaban-exec进程状态和Azkaban 任务执行的状态同步到SQLServer数据库,任务执行 10 分钟同步一次,发现异常就告警。原创 2020-12-20 16:56:44 · 3433 阅读 · 14 评论 -
azkaban 报错:javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection?
部署azkaban 后, 使用 Chrom 发现无法访问 web 页面, 且后台报错javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection? at sun.security.ssl.InputRecord.handleUnknownRecord(InputRecord.java:710) at sun.security.ssl.InputRecord.read(InputRecord.java:..原创 2020-11-13 19:38:03 · 563 阅读 · 0 评论 -
【Ambari】 NameNode HA 回滚操作
目录一、问题引出1. 角色查看二、解决步骤1. 清理额外的NAMENODE2. 恢复secondary_namenode3. NameNodeHA 启动一、问题引出启用HDFS HA过程中,被人为的中断或意外的中断导致Secondary NameNone还没有被删除。我是 namenode 启动花了 15 分钟 后 我就强制退出了, 真的是手贱啊,查了网上的文章失败后 可以retry 就可以了,自己挖坑自己填。参考文档:https://www.jianshu.com/..原创 2020-08-28 15:59:51 · 921 阅读 · 0 评论 -
Ranger 和 Ranger Audit 审计功能模块介绍
目录一、Ranger 介绍1、Ranger概念2、权限模型二、Ranger Aduit审计功能模块详解1、Ambari 中 Ranger config2、Ranger Audit 功能模块介绍一、Ranger 介绍1、Ranger概念Ranger 使用了一种基于属性的方法定义和强制实施安全策略。当与 Apache Hadoop 的数据治理解决方案和元数据仓储组件Apache Atlas一起使用时,它可以定义一种基于标签的安全服务,通过使用标签对文件和数据资产进行分类,并原创 2020-07-11 16:02:16 · 5210 阅读 · 18 评论 -
HDP中 Ranger 整合Kerberos进行细粒度的权限访问控制
一、Ranger 权限问题1、 Ranger 是什么?ranger则是针对组件内的权限 ,比如HDFS的读写执行,Hive和Hbase的读写更新,yarn的队列资源使用权,目前ranger只支持 hdfs,hive,hbase,kafka,yarn等组件,针对于组和用户对资源的访问权限进行细粒度的控制。2、遇到的问题安装 Ambari 时安装了 Ranger 但是没有配置权限,所以出现了下面的问题:Error:Error while comiling statement: FAIL.原创 2020-07-07 22:40:20 · 3805 阅读 · 3 评论 -
Ranger 简介与安装
目录一、Ranger是什么1、Ranger介绍2、Ranger模块二、基于Ambari安装Ranger Apache Ranger目前是Apache下的顶级项目,目的是通过制定策略(policies)实现对Hadoop组件的集中式安全管理。用户可以通过Ranager实现对集群中数据的安全访问。 Ranger由三个模块组成:Ranger portal: 提供给用户进行安全管理的界面Ranger plugin: 嵌入在需要安全控制的组件进程中,提供两种功能:原创 2020-07-04 09:55:26 · 4322 阅读 · 1 评论 -
【Ambari】FAILED:HiveAccessContorlException Permission denied: user[hive] does not havar[USER] privil
ranger则是针对组件内的权限 ,比如HDFS的读写执行,Hive和Hbase的读写更新,yarn的队列资源使用权,目前ranger只支持 hdfs,hive,hbase,kafka,yarn等组件,针对于组和用户对资源的访问权限进行细粒度的控制。原创 2020-06-09 09:41:22 · 4222 阅读 · 2 评论 -
【Ambari】开启Kerberos安全认证
一个 User 或者一个 Service 会用 Principal 到 认证服务器(AS)认证,AS会返回一个用 Principal Key 加密的 TGT(票据授权票据),这时候只有 AS 和 Principal 的使用者可以识别该TGT,User 或者 Service 会使用 Principal 的 Key 来解密 TGT, 并使用解密后的 TGT 去TGS 获取 Service Ticket。在 Kerberos 认证的集群中,只有拿着这个 Service Ticket 才可以访问真正的 Se原创 2020-05-27 11:10:26 · 3010 阅读 · 0 评论 -
Apache Griffin 安装与简介
目录一、Griffin简介二、安装部署2.1 依赖准备1、初始化2、Hadoop和Hive3、Scala 安装4、 ES的安装与启动2.2 源码打包部署一、Griffin简介数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资.原创 2020-06-03 17:01:29 · 4816 阅读 · 0 评论