狮子王K-CSDN博客

原创 dolphinscheduler相关问题

解决办法：尝试将standby状态手动切换为active状态，系统阻止修改，直接kill掉namenode,然后在这台服务重启namenode（hdfs --daemon start namenode），这样做的目的就是让HA重新进行故障转移产生新的active和standby节点，然后测试执行hadoop命令，没有问题了。hadoop的HA已经配置了自动故障转移机制，但是在执行hadoop命令时还是出现了识别到standby状态的节点（检查几台namenode节点的状态，没有问题）

2023-05-11 14:17:48 420

原创 flume采集kafka数据自定义source

flume采集kafka数据自定义source

2023-02-22 10:51:20 486

原创 hadoop集群高可用配置及问题（下）

yarn高可用配置

2022-12-04 17:38:24 544

原创 hadoop集群高可用配置及问题（中）

hdfs高可用配置

2022-12-04 17:23:34 216

原创 hadoop集群高可用配置及问题（上）

hadoop集群高可用配置及问题

2022-11-23 21:23:38 963

原创 hive关于数据倾斜的问题

1.hive为什么会生数据倾斜（1）不同数据类型关联产生数据倾斜如：用户表中user_id字段为int，log表中user_id字段为string类型，当按照user_id进行两个表的join操作时。解决方式是：把数字类型转换成字符串类型select * from users aleft outer join logs bon a.user_id=cast(b.user_id as string)（2）空值产生的数据倾斜的问题生产环境中经常会有大量空值数据进入到一个reduce.

2021-11-03 04:50:07 336

原创 keepalive的使用

keepalive，是在TCP中一个可以检测死连接的机制。工作原理：keepalive原理很简单，TCP会在空闲了一定时间后发送数据给对方：1.如果主机可达，对方就会响应ACK应答，就认为是存活的。2.如果可达，但应用程序退出，对方就发FIN应答，发送TCP撤消连接。3.如果可达，但应用程序崩溃，对方就发RST消息。4.如果对方主机不响应ack, rst，继续发送直到超时，就撤消连接。这个时间就是默认的二个小时。uses WinSock2;procedure TForm1

2021-10-19 11:02:57 435

原创 sqoop将mysql数据上传到HDFS报错

1.报错Warning: /opt/module/hbase-2.0.5 does not exist! HBase imports will fail.Please set $HBASE_HOME to the root of your HBase installation.Warning: /opt/module/sqoop-1.4.6/../hcatalog does not exist! HCatalog jobs will fail.Please set $HCAT_HOME to th

2021-08-19 02:24:49 852

原创 Caused by: java.sql.SQLException: Access denied for user ‘root‘@‘123.117.32.31‘ (using password: YES

在搭建用户画像项目时，报错，可能是mysql 权限的问题1.在linux机器中输入：mysql -uroot -p密码2.mysql> use mysql;3.mysql> select host,user from user;4.mysql> grant all privileges on *.* to 'root'@'自己的端口' identified by '密码'with grant option;5.mysql> flush privileges;---

2021-08-17 21:02:30 79

原创解析HDFS中数据写入流程

首先由客户端向NameNode发起写数据请求，NameNode接收到请求后会进行基本验证（请求上传的路径是否合法及用户权限），验证没问题后，Name Node会响应客户端允许上传。接下来客户端会对文件按照blocksize大小进行切块，切完块后依次以块为单位进行上传。此时客户端会请求上传第一个块信息，服务端接收到上传请求后会依据HDFS默认的机架感知原理默认情况下返回三台存放数据块副本的DataNode机器。客户端接收到机器列表后会依据网络拓扑的原理找到其中一台机器进行传输通道的建立，然后依次和三台机器进行

2021-07-10 01:17:37 225

KingLionfzj的博客