大数据
文章平均质量分 59
超级迅猛龙
不定期更新哦。
有问题随时私信联系我~
展开
-
python开发prometheus exporter--用于hadoop-yarn监控
yarn_vcore_seconds: 这是一个Gauge指标,用于记录应用程序使用的虚拟CPU核心数量乘以运行时间(vCore-秒)。yarn_zkRMAppRoot_code: 这个是一个Gauge指标,用于记录YARN ResourceManager应用程序根目录在ZooKeeper中的znode数量。yarn_memory_seconds: 这是一个Gauge指标,用于记录应用程序使用的内存数量乘以运行时间(内存-秒)。这个指标有一个 application 标签,用于区分不同的应用程序。原创 2024-07-09 11:29:48 · 1007 阅读 · 0 评论 -
dolphinscheduler从mysql_to_sqlserver遇到的问题
返回 String.format("%s", column);DataxUtils.java中删除处理SQL服务器模块的代码中的符号“`”。sqlserver不允许这个。解决方法就是使用自定义模版。原创 2024-07-09 10:12:37 · 328 阅读 · 0 评论 -
离线安装OpenLDAP-FAQ
出现这情况并不是没有升级成功。而是该会话还是原来的会话。端来或者重新开启新的会话即可。# 这里还是OpenSSL 1.0.2k-fips 26 Jan 2017版本。安装openldap-2.5.9版本遇到了一个问题。也就是需要更新openssl为1.1.1。更换原本的openssl。原创 2024-07-09 10:09:20 · 153 阅读 · 0 评论 -
kafka集群磁盘与节点数量规划方案
一台节点传输的能力 ===> 1Gbps * 70%(阈值) = 700Mb * 1/3(实际利用) = 240Mbps (其实也就大概只剩二三十兆MB/s了)带宽也主要有两种:1Gbps 的千兆网络和 10Gbps 的万兆网络(注意是Gbps不是GBps),特别是千兆网络应该是一般公司网络的标准配置了。比如每天产生100G数据(一亿条1kB的消息)业务数据需要传输到Kafka集群,那么kafka集群需要规划多大的存储空间呢?最终磁盘的需求: 3TB + 5%的磁盘默认预留 = 考虑3.6TB的磁盘。原创 2024-07-09 10:07:17 · 377 阅读 · 0 评论 -
Yarn标签调度--HDP测试
某个任务需要用到gpu资源,而gpu并非在每个节点上都有,通过对节点设置标签,可以使作业任务正确调度到含gpu资源的节点上,确保作业任务正确运行。exclusive表示是否独占,具体可以理解为,当该标签分区下的节点有空闲资源时,是否可以共享给default分区的任务使用。执行上面的命令后,再来看看rm的界面,可以看到gpu的标签,有了一个活跃的节点,而DEFAULT标签中则少了一个活跃节点。完成标签的添加后,接下来就是给指定的节点关联到不同的标签上,也就是将集群的节点按标签划分成不同的节点分区。原创 2024-07-09 10:03:13 · 977 阅读 · 0 评论 -
Ambari_HDP用户登入参数逆向
接口:http://172.16.105.7:8080/api/v1/users/admin?我们看下loginName + ":" + controller.get('password’)的值就真相大白了。如下图 我多测试了几次 Basic是不会有变化的 所以我们直接搜索。登录过程:登入进去就可以。原创 2024-06-14 17:22:03 · 437 阅读 · 0 评论 -
ES备份数据-快照模式-并恢复---NFS篇
我这边采用快照的模式进行备份数据备份源的es 版本要等于低于恢复elasticsearch集群的版本;先看下:ES集群快照存在版本兼容性问题:https://www.elastic.co/guide/en/elasticsearch/reference/current/snapshot-restore.html首先为快照目录建立共享 我这边用的是nfs原创 2024-06-03 15:42:05 · 972 阅读 · 1 评论 -
解决Hadoop root用户无法提交问题
Users/mac/Desktop/客户/源码/hadoop-3.2.1-src/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-nodemanager/src/main/native/container-executor/impl/开启LinuxContainerExecutor后无法用root去提交。查看报错 是因为在源码中做出了限制。我们在用root提交个任务试试。原创 2023-07-28 13:49:21 · 182 阅读 · 0 评论 -
Linux SQL Server部署步骤超全
使用 SQL Server 名称 (-S),用户名 (-U) 和密码 (-P) 的参数运行 sqlcmd。用户名为 SA,密码是在安装过程中为 SA 帐户提供的密码。若要创建数据库,需要使用一个能够在 SQL Server 上运行 Transact-SQL 语句的工具进行连接。rpm -ivh继续安装,根据提示执行sudo /opt/mssql/bin/mssql-conf setup。以下步骤使用 sqlcmd 本地连接到新的 SQL Server 实例。接下来创建一个新表 mgmg,然后插入两个新行。原创 2022-12-14 15:21:28 · 1762 阅读 · 1 评论 -
Trino配置yanagishima-23.0(包含编译)
拷贝到需要部署的位置 解压后 修改配置文件yanagishima-23.0/config/application.yml。如下是配置:(标红的要特别注意,关于其他Hive、Spark、ES可以删除掉的)编译好的压缩包在 build/distributions 下。修改了yanagishima-run.sh启动脚本。安装编译yanagishima需要的工具。修改编译所需要的源码(注意这个必须要做)我这边使用的是java11的启动的。yanagishima的启停。原创 2022-12-14 15:07:14 · 678 阅读 · 0 评论 -
Hadoop 集群中使用 S3(对象存储)文件系统
Hadoop 自带 S3 依赖,位置如下:但是这些依赖包默认不在 hadoop classpath 下面。可以使用以下两种方法引入这两个包:修改hadoop的core-site.xml文件:s3的配置模板(记得修改成自己的 secret key 与 access key )更改完毕并重启集群后测试hdfs dfs -ls s3a://hive0614/ 等命令操作 S3 中的文件。目前HDFS Client已经可以看到S3文件了。如果需要yarn和MapReducer 需要修改如下文件hdf原创 2022-06-15 13:58:02 · 5158 阅读 · 0 评论 -
史上最全—kafka-manager配置及安装Kerberos(Ambari-HDP)认证
史上最全—kafka-manager配置及安装Kerberos(Ambari-HDP)认证 本文用的Ambari的kafka 配置kafka-manager。CDH、开源也可以步骤一样。kafka为开启kerberos认证的。kafka-manager作用:管理多个集群轻松检查群集状态(主题,消费者,偏移,代理,副本分发,分区分发)运行首选副本选举使用选项生成分区分配以选择要使用的代理运行分区重新分配(基于生成的分配)使用可选主题配置创建主题(0.8.1.1具有与0.8.2+不同原创 2022-03-28 14:42:52 · 5363 阅读 · 0 评论 -
Ambari添加快速链接Quick Links
Ambari添加快速链接Quick Links据说是2.3 版本后 也就是2.4 的Ambari才支持了这种自定义的快速链接。2.4.0官方公布了quickLinks相关引入了jar。这个快速链接的架构是metainf配置文件中首先要告诉ambari-server有快速链接这个东西(quickLinks)然后ambri-server才去检测 以及 解析 然后给ambari原创 2022-03-28 13:48:18 · 3712 阅读 · 1 评论 -
Ambari开启Kerberos后Web UI访问问题(修改配置)
之前一篇文章讲过在本地kinit 然后再去访问kerberos。有失效时间 ,对于要长期获取jmx等场景并不太适用。此文讲通过修改hdfs等组件配置 修改webui认证方式的方式 实现访问webui。修改core-site中此配置为turehadoop.http.authentication.simple.anonymous.allowed=truehadoop.http.authentication.type=simplehadoop.proxyuser.HTTP.groups=*ha原创 2022-03-23 13:46:44 · 3895 阅读 · 0 评论 -
Kerberos开启后Web UI无法查看问题
谷歌浏览器 火狐浏览器都可以访问web ui界面了。官方链接:Configuring Authentication with Kerberos打开了Kerberos 会发现Ambari的很多Web UI都打不开了。如下图:提示要认证。那我进就去认证下。首先电脑上要安装kerberos (mac默认安装了哦)把/etc/krb.cof文件拿到本地。我这边在终端拉取的sudo scp root@hadoop01:/etc/krb5.conf /etc/下载/etc/security/原创 2022-03-23 11:38:59 · 985 阅读 · 1 评论 -
Ambari2.7.5自定义服务集成Flink1.7.2
ambari支持自定义服务组件集成,以下介绍ambari2.7.5集成flink1.9.3版本组件。flink: https://github.com/abajwa-hw/ambari-flink-servicehttps://archive.apache.org/dist/flink/flink-1.11.1/flink-1.7.2-bin-scala_2.11.tgz首先设置一下HADOOP版本:VERSION=`hdp-select status hadoo...原创 2022-03-22 14:33:26 · 2534 阅读 · 0 评论 -
Ambari开启Kerberos
Ambari 相关文档地址Ambari 官方资料入口:https://www.cloudera.com/products/open-source/apache-hadoop/apache-ambari.htmlAmbari 相关 rpm 包:https://docs.cloudera.com/HDPDocuments/Ambari-2.7.3.0/bk_ambari-installation/content/ambari_repositories.htmlHDP 相关 rpm 包:https:/原创 2022-03-18 14:47:40 · 2980 阅读 · 0 评论 -
【Ambari】开启HDFS 的HA架构
List item之前搭建的Ambari可以查看之前的博客接下来我们来看下HDFS 开启HA开启HDFS 的HA架构选择启动NN的HA因为之前是3节点的所以一开始安装的时候 Ambari架构选择了让安装一个NameNode和一个SecendryNameNode。点击启动NameNode HA 后跳出个界面填写集群名类似于之前第一次部署的时候那个界面。写入集群名 点击下一步分配实例开始分配实例部署的节点。然后下一步然后会出现部署信息部署信息这里基本上没啥问题。检查下 实..原创 2022-03-17 11:06:55 · 1809 阅读 · 0 评论 -
超全步骤——Ambari+HDP部署
Ambari 相关文档地址Ambari 官方资料入口:https://www.cloudera.com/products/open-source/apache-hadoop/apache-ambari.htmlAmbari 相关 rpm 包:https://docs.cloudera.com/HDPDocuments/Ambari-2.7.3.0/bk_ambari-installation/content/ambari_repositories.htmlHDP 相关 rpm 包:https:/原创 2022-03-16 18:34:09 · 6085 阅读 · 5 评论 -
Flink的两种WordCount
流处理WordCountimport org.apache.flink.streaming.api.scala._//流处理wordcountobject StreamWordCount { def main(args: Array[String]): Unit = { //创建流处理执行环境 val env = StreamExecutionEnvironment .getExecutionEnvironment //接受一个socket文本流 v原创 2022-02-21 18:01:26 · 851 阅读 · 0 评论 -
Flume采集数据到HDFS
Flume采集数据到HDFS以CDH集群为例flume版本:新建配置文件:flumejob_hdfs.conf (这里我把配置文件放在了/etc/flume-ng下)# Name the components on this agent agent别名设置a1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the source 设置数据源监听本地文件配置# exec 执行一个命令的方式去查看文件原创 2022-02-18 16:39:05 · 1465 阅读 · 5 评论 -
Sqoop导入mysql数据到HDFS
首先通过sqoop查看mysql数据库命令:./sqoop list-databases --connect jdbc:mysql://rm-bp10661g217i4ze99io.mysql.rds.aliyuncs.com:3306/?useSSL=false --username rds_test --password Testforuser2021然后在mysql中创建表DROP TABLE IF EXISTS mgmqtest;CREATE TABLE mgmqtest (id int原创 2022-02-18 16:22:54 · 1784 阅读 · 2 评论 -
flink采集本地文件到kafka (本地跑)
kafka地址为:172.16.104.2:9092,172.16.104.3:9092,172.16.104.4:9092创建测试topic。首先找到创建脚本:kafka-topics.sh命令:find /opt/ -name 'kafka-topics*’查看所有topic:kafka-topics --zookeeper localhost:2181 —list创建一个mgtest./kafka-topics.sh --create --zookeeper localhost:2181原创 2022-02-18 16:20:20 · 901 阅读 · 0 评论