hcq_lxq-CSDN博客

原创 CDH跨集群联查方案

比如有A集群上存在表A_TAB和B集群存在B_TAB，步适用Discp情况下如何在A集群上查询使用B_TAB？，且location执行B集群的namenode或者kudu Master;第二步：如果使用impala 需要刷新表；如果是分区表需要修复分区。需要实现2个CDH集群的hive表和kudu表联查；第一步：在A集群创建B_TAB。第三步：A集群上查询B_TAB。和CDH版本为6.3.

2023-10-25 17:35:38 165

1.修改kettle配置文件/home/hadoopap/data-integration/system/karaf/system/pentaho-karaf-features/pentaho-big-data-plugin-osgi/8.0.0.0-28/pentaho-big-data-plugin-osgi-8.0.0.0-28-features.xml。kettle JOB 假死，需要到系统上面杀死进程。报错信息： JOB一直处理执行状态。

2023-08-08 10:02:38 719

原创 df与du空间大小不一致问题

1、先通过l lsof |grep delete 查询目标目录下是否有被标记为已删除的文件，如有通过重启该文件所使用的进程可释放空间。如果不方便重启进程或者日志类文件，也可通过进入/proc/进程ID/fd目录下，找到删除的文件，然后执行情况命令，从而释放空间。2、在目标目录下，执行du -a * | sort -nr | head -n 10 命令统计结果中看是否包含较大的隐藏文件。然后通过 ls -l /proc/进程号/fd/* | grep 文件名关键字，找到相应文件句柄；

2023-07-28 15:22:01 1692

转载 oracle函数自定义日历周获取周数

函数：自定义日历周获取周数功能说明：计算某日期是一年的第几周，支持自定义日历周，将任意周内星期设为一周起始日。参数说明：currentDate为目标日期；weekStandard为自定义一周开端，可将任意周一到周日设置为一周的开头，参数取值范围为1~7，周一用1表示，周二用2表示，以此类推。CREATE OR REPLACE function GetWeekNum(currentDate IN date,weekStandard IN varchar2) return varchar2...

2022-05-08 11:46:17 1300

原创 Unable to send support bundle to Cloudera servers due to exception

CDH每次重启组件服务的时候进度条提示如下报错，但是不影响组件运行Unable to send support bundle to Cloudera servers due to exception: java.util.concurrent.ExecutionException: java.lang.RuntimeException: Failed to upload bundle. Please file a ticket with the exception and the relevant se

2022-04-25 17:54:57 601

原创 Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask.

问题描述： hql语句周期性调度执行，在某个时间后经常出现如下报错 FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session 报错的语句都是设置了 set hive.execution.engine=spark;参数，原因：发现...

2022-04-12 22:35:28 8891

原创 dataX连接hive时报错（Required field ‘client_protocol‘ is unset）

安装datax之后，编写json测试ftp2hdfs的作业时，报如下错误： java.sql.SQLException: Could not establish connection to jdbc:hive2://xx.xx.xx.xx:10000/default: Required field 'client_protocol' is unset! Struct:TOpenSessionReq(client_protocol:null, configuration:{use:database=d

2022-01-13 20:01:30 2119

原创 unable to create new native threadjava.lang.OutOfMemoryError: unable to create new native thread

使用kettle批量在指定服务器上执行任务是包如下错误：java.lang.OutOfMemoryError: unable to create new native threadjava.lang.OutOfMemoryError: unable to create new native thread解决方法：root用户在如下/etc/security/limits.conf文件中插入下面两行：* - nofile 275828*

2021-12-30 14:18:33 1364 1

原创 xxx is not in the sudoers file.This incident will be reported错误

普通用户用sudo执行命令时报"xxx is not in the sudoers file.This incident will be reported"错误，解决方法就是在/etc/sudoers文件里给该用户添加权限1.切换到root用户下，修改/etc/sudoers权限3.编辑sudoers文件vi /etc/sudoers找到这行 root ALL=(ALL) ALL,在他下面添加xxx ALL=(ALL) ALL (这里的xxx是你的用户名)ps:这里说下你可以sudo

2021-12-29 09:40:04 2084

原创 java.lang.Exception: Error running remote command.

远程同时调用很多脚本的时候，有些执行任务会报错。登录root用户修如下文件：/etc/ssh/sshd_config1、修改/etc/ssh/sshd_config中：#UseDNS yes 改为 no ，去掉注释#MaxSessions 10 改为 200，去掉注释#MaxStartups 10:30:100改为 200，去掉注释2、重启SSH服务:sudo systemctl restart sshd.service...

2021-12-29 09:35:15 1059

原创加入sentry后普通用户访问hdfs文件权限问题

问题：加入LDAP和sentry控制权限后，在每天服务器中添加了普通用户，例如hadoopuser，在hadoopuser下执行su - u hadooouser hdfs dfs -ls /user/hive/warehouse报错,报错信息如下。ls: Permission denied: user=hadoopuser, access=READ_EXECUTE, inode="/user/hive/warehouse":hive:hive:drwxrwx--x分析思路：...

2021-12-11 10:56:42 1504 1

原创 CDH 中hive的 Hive Metastore Server中JVM 堆栈内存溢出问题分析

问题：在操作BDR迁移hive数据的过程中。新集群的CM界面突然无法显示，最中后台找到对应BDR任务手动杀死进程，重启集群的server和agent服务。CM界面正常显示，但是过了一会HMS异常退出。CM界面CMS中JVM 堆栈内存显示高出设定值。重启CMS过一段时间还是会自动挂掉。JVM 堆栈内存显示仍然高出设定值。问题：经过排查发现元数据库磁盘空间不足，发现hive元数据库notification_log表竟然几百G,数据库扩容后仍然没用。最后查到noti...

2021-12-09 20:55:03 2843

原创加入sentry后hive HMS的canary时间较长问题

异常问题：给CDH6.3添加完sentry之后，使用创建的用户登录beeline,创建表的时候，操作需要 200s 多完成，查询数据没有问题。CH界面显示hive HMS的canary时长居高不下。创建测试表花费200sCM界面上hive的HMS Canary持续时间很长：原因：因为是上sentry的时候出现的情况，所以应该是sentry信息同步的消息过慢；HMS 会实时向 Sentry 同步Notifications 请求，当需要大...

2021-12-09 20:36:54 1496

原创 Oracle的LOB（CLOB）大字段以及（SYS_LOB***$$）清理

oracle应用过程中出现表空间不足的时候，为了知道具体哪些表占用空间较大我们可以用如下sql查询：Select Segment_Name,Sum(bytes)/1024/1024 From User_Extents Group By Segment_Name order by Sum(bytes) desc;查询结过出现SYS_LOB***$$这种Segment_Name，记录着大字段占用空间。我们可用dba_objects表查询映射的是哪一个表的大字段；object_id为LOB后到C之间的那

2021-12-06 14:15:40 7579

原创 CDH修改静态资源池配置,NodeManager重启失败问题

问题描述：修改静态资源池配置的时候，重启整个CM之后，突然发现一个YARN中的NodeManager重启失败，问题NodeManager服务不能重启也不能停止。通过链接发现资源配置有一台还是以前的配置没有变化;http://hadoopip:8088/cluster/nodes解决方案：1、重启有问题的agent，systemctl restart cloudera-scm-agent2、在元数据库的CM用户下查询roles，查找role_type不是RUNNING的数据，更新这条数...

2021-11-30 17:49:35 1637

原创 CDH中出现丢失块处理

1、描述集群报块丢失的原因很多，一般CM界面会提示出来。出现这种情况该如何解决呢：2、修复先检测已损坏的块sudo -u hdfs hdfs fsck / > test.log后台执行命令查看输出文件中会提示丢失快的统计和具体有问题的文件路径和名称。如果文件不重要直接将文件删除：hdfs dfs -rm -r/tmp/hadoop-yarn/staging/yebowen/.staging/job_1537174906503_876513/jo...

2021-11-30 11:21:20 1570

原创 CDH集群删除主机节点

1. 登录CM主页 - 选择“主机” - “所有主机”，勾选要删除的主机 -“停止主机上的角色”；2. 后台登录到要被删除的主机，停掉agent服务；已经设置了开机自启动的，要disable掉。sudo /etc/init.d/cloudera-scm-agent stopsystemctl status cloudera-scm-agent3. 再次登录CM主页 - 主机 - 所有主机，勾选要删除的主机 - 从集群中删除；4. 再次勾选要删除的主机 - Remo...

2021-11-30 10:07:50 3044

原创 Excel函数运用

COUNTIF 函数用于统计满足某个条件的单元格的数量 =COUNTIF(A2:A5,"London") =COUNTIF(A2:A5,A4) =COUNTIF(A2:A5,"苹果") 统计单元格 A2 到 A5 中包含“苹果”的单元格的数量。结果为“2”。 =COUNTIF(A2:A5,A4) 统计单元格 A2 到 A5 中包含“桃子”（A4 中的值）的单元格的数量。结果为 1。 ..

2021-11-10 17:01:20 152

原创 impala中 alter table add partition 对HDFS文件权限的影响

偶然的机会发现用其他用户重写impala用户下的分区数据时有些表报错，有些表不报错，重写报错信息（Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Exception when loading 1 in table）。最后发现都是用impala用户插入的分区数据有些HDFS文件权限是755，有些权限是777。最后发现是因为

2021-11-09 11:14:27 2331

原创行转列，列转行操作

一列转多行：oracle实现方式：注意：以下只有单行数据或拆分单个字符串时候适用：WITH test AS(SELECT '11' COL1,'zhang,wang,li,huang' COL2 FROM DUAL)SELECT test.col1,test.col2, regexp_count(test.col2, '\,') + 1 as col2_num, regexp_substr(test.col2,'[^,]+',1,level) col2_new...

2021-11-03 13:44:47 5092

原创服务器异常断开导致kudu无法启动问题（Data length checksum does not match: Incorrect checksum in file ... : Checksum ）

某日一台服务器异常断开，无法登陆，后续正常后，agent服务自动重启，服务器上的各种角色也在启动恢复，但是kudu无法恢复。手动重启后失败：大概由于服务器异常断开，当时kudu正在进行数据写入操作，导致数据文件异常，报错如下：++ date+ timestamp='Wed Oct 13 10:57:02 CST 2021'+ echo 'Wed Oct 13 10:57:02 CST 2021: Found master(s) on hadoopap11,hadoopap12,hadoop..

2021-10-13 17:09:25 1067

原创 Mysql的linux安装

安装前准备：一：确认主机是否存在mariadb，存在的话，先卸载掉。确认当前主机是都存在mariadb，如果主机未被安装过任何数据库先卸载老的mariadb##查看主机是否都有mariadbrpm -qa | grep mariadb ##卸载mariadbrpm -e --nodeps mariadb-libs-5.5.52-1.el7.x86_64sudo rpm -e --nodeps mariadb-libs-5.5.52-1.el7.x86_64##检查mar..

2021-09-15 16:09:18 342

原创 Mysql函数运用

Mysql中把ip地址和int数字互转：SELECT INET_ATON("127.0.0.1") FROM DUAL;SELECT INET_NTOA(1953789044) FROM DUAL;

2021-09-15 15:42:00 55

原创 EXCEL常用处理

Excel中把ip地址转换成int数字：=LEFT(E2,FIND(".",E2)-1)*256^3+MID(E2,FIND(".",E2)+1,FIND(".",E2,FIND(".",E2)+1)-FIND(".",E2)-1)*256^2+MID(E2,FIND(".",E2,FIND(".",E2)+1)+1,FIND(".",E2,FIND(".",E2,FIND(".",E2)+1)+1)-FIND(".",E2,FIND(".",E2)+1)-1)*256+RIGHT(E2,LEN(E2)

2021-09-15 15:07:02 1565

原创常用正则表达式使用

电话手机的验证："^\\d{4,6}$|^(\\d{3,4}-)?\\d{7,8}$|^[1][1-9]\\d{9}$"匹配中文字符的正则表达式：[u4e00-u9fa5] 匹配HTML标记的正则表达式：/<(.*)>.*<\/\1>|<(.*) \/>/ 匹配Email地址的正则表达式：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*...

2021-09-15 14:29:48 52

转载 Kettle并行执行Trans后的合并问题

https://blog.csdn.net/weixin_34327761/article/details/86361866

2021-09-03 16:23:11 225

原创 kettle中如何实现循环

kettle使用循环样例如下：实现循环首先需要控制循环次数，并对每次循环进行累加标记。读取文本：现在读取某个表的数据进行循环（也可以读取某个文件进行循环）：SELECT 'aaa' as id from dualunion allSELECT 'bbb' as id from dualunion allSELECT 'ddd' as id from dual初始化参数（JS脚本）：var prevRow=previous_result.getRows..

2021-09-03 13:52:22 9160 1

原创 kudu使用注意事项

表：1、表的副本数必须为奇数，最多7。2、副本数在建表的时候指定，之后无法更改主键：1、表创建后，主键不能修改。必须删除重指定新的2、主键列必须在非之前3、主键列的值不能使用 UPDATEUPDATEUPDATEUPDATEUPDATEUPDATE函数修改。如果要主键的值只能删除该行重新插入。4、 DOUBLE 、 FLOAT或BOOL 类型的列不能作为主键，此外必须NOT NULL 。5、不支持自动生成的主键（如自增列）6、组合主键的所有列在编码后，大小不...

2021-08-25 13:47:24 954

原创 sqoop自动化抽取关系型数据库(oracle,mysql,postgresql)到大数据集群（按照时间段增量抽取）

本文介绍自动化按照指定时间段增量抽取关系型数据库(oracle,mysql,postgresql)到hive/impala。##增量抽数：需要五个参数参数1：增量标示参数2：源数据库用户名参数3：hive表名（dwr_源表名）参数4：where条件参数5：开始时间参数6：结束时间 ## sh /RPT/etlscript/sqoop/shell/sqoop_import_source_data_by_tables_add.sh add p3fdcadm dwr_EQP

2021-08-25 13:18:33 316

原创在hive中生成的parquet文件和 impala生成的parquet文件相比，大小不一样

使用sqoop抽取一批数据进入集群：MR抽取进来的大小是187.6 M 数据量 1516513测试一：用impala把批数据进行插入 ,结果同样数据用户impala形成的文件占用磁盘59M,相比MR减少3倍；测试二：查询impala生成的结果数据，用hive方式插入使用hive执行压缩参数进行测试结果：无压缩效果；不管是查询hive的结果还是查询impala的结果最终用hive插入新的表中；最终大小都是187.6 M以下参数无效set hive.exec..

2021-08-22 16:42:24 452

原创 Out of resources when opening file ‘./xxx.MYD‘ (Errcode: 24)解决方法

spark程序在运行过程中，偶然有一天spark在读取mysql数据库的时候报错：Out of resources when opening file ‘./xxx.MYD’ (Errcode: 24)意思大概就是无法读取数据库文件了，该错误是因为打开的文件数超过了my.cnf的–open-files-limit。open-files-limit选项无法在mysql命令行直接修改，必须在my.cnf中设定. 如果你要是不设置的话，他会取系统ulimit -n的值；数据库中查看：show variab

2021-08-21 21:38:17 490

Impala最佳实践 .pptx

小文件合并方案.docx

airfloor安装过程- 实测.docx

CDH集群常用组件关键参数及修改建议.docx

空空如也