自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (5)
  • 收藏
  • 关注

原创 CDH跨集群联查方案

比如有A集群上存在表A_TAB和B集群存在B_TAB,步适用Discp情况下如何在A集群上查询使用B_TAB?,且location执行B集群的namenode或者kudu Master;第二步:如果使用impala 需要刷新表;如果是分区表需要修复分区。需要实现2个CDH集群的hive表和kudu表联查;第一步: 在A集群创建B_TAB。第三步:A集群上查询B_TAB。和CDH版本为6.3.

2023-10-25 17:35:38 150

原创 Kettle 运用中报错

1.修改kettle配置文件/home/hadoopap/data-integration/system/karaf/system/pentaho-karaf-features/pentaho-big-data-plugin-osgi/8.0.0.0-28/pentaho-big-data-plugin-osgi-8.0.0.0-28-features.xml。kettle JOB 假死,需要到系统上面杀死进程。报错信息: JOB一直处理执行状态。

2023-08-08 10:02:38 652

原创 df与du空间大小不一致问题

1、先通过l lsof |grep delete 查询目标目录下是否有被标记为已删除的文件,如有通过重启该文件所使用的进程可释放空间。如果不方便重启进程或者日志类文件,也可通过进入/proc/进程ID/fd目录下,找到删除的文件,然后执行情况命令,从而释放空间。2、在目标目录下,执行du -a * | sort -nr | head -n 10 命令统计结果中看是否包含较大的隐藏文件。然后通过 ls -l /proc/进程号/fd/* | grep 文件名关键字 ,找到相应文件句柄;

2023-07-28 15:22:01 1560

转载 oracle函数自定义日历周获取周数

函数:自定义日历周获取周数功能说明:计算某日期是一年的第几周,支持自定义日历周,将任意周内星期设为一周起始日。参数说明:currentDate为目标日期;weekStandard为自定义一周开端,可将任意周一到周日设置为一周的开头,参数取值范围为1~7,周一用1表示,周二用2表示,以此类推。CREATE OR REPLACE function GetWeekNum(currentDate IN date,weekStandard IN varchar2) return varchar2...

2022-05-08 11:46:17 1269

原创 Unable to send support bundle to Cloudera servers due to exception

CDH每次重启组件服务的时候进度条提示如下报错,但是不影响组件运行Unable to send support bundle to Cloudera servers due to exception: java.util.concurrent.ExecutionException: java.lang.RuntimeException: Failed to upload bundle. Please file a ticket with the exception and the relevant se

2022-04-25 17:54:57 564

原创 Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask.

问题描述: hql语句周期性调度执行,在某个时间后经常出现如下报错 FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session 报错的语句都是设置了 set hive.execution.engine=spark;参数, 原因: 发现...

2022-04-12 22:35:28 8674

原创 dataX连接hive时报错(Required field ‘client_protocol‘ is unset)

安装datax之后,编写json测试ftp2hdfs的作业时,报如下错误: java.sql.SQLException: Could not establish connection to jdbc:hive2://xx.xx.xx.xx:10000/default: Required field 'client_protocol' is unset! Struct:TOpenSessionReq(client_protocol:null, configuration:{use:database=d

2022-01-13 20:01:30 2090

原创 unable to create new native threadjava.lang.OutOfMemoryError: unable to create new native thread

使用kettle批量在指定服务器上执行任务是包如下错误:java.lang.OutOfMemoryError: unable to create new native threadjava.lang.OutOfMemoryError: unable to create new native thread解决方法:root用户在如下/etc/security/limits.conf文件中插入下面两行:* - nofile 275828*

2021-12-30 14:18:33 1307 1

原创 xxx is not in the sudoers file.This incident will be reported错误

普通用户用sudo执行命令时报"xxx is not in the sudoers file.This incident will be reported"错误,解决方法就是在/etc/sudoers文件里给该用户添加权限1.切换到root用户下,修改/etc/sudoers权限3.编辑sudoers文件vi /etc/sudoers找到这行 root ALL=(ALL) ALL,在他下面添加xxx ALL=(ALL) ALL (这里的xxx是你的用户名)ps:这里说下你可以sudo

2021-12-29 09:40:04 2057

原创 java.lang.Exception: Error running remote command.

远程同时调用很多脚本的时候,有些执行任务会报错。登录root用户修如下文件:/etc/ssh/sshd_config1、修改/etc/ssh/sshd_config中:#UseDNS yes 改为 no ,去掉注释#MaxSessions 10 改为 200,去掉注释#MaxStartups 10:30:100改为 200,去掉注释2、重启SSH服务:sudo systemctl restart sshd.service...

2021-12-29 09:35:15 1001

原创 加入sentry后普通用户访问hdfs文件权限问题

问题: 加入LDAP和sentry控制权限后,在每天服务器中添加了普通用户,例如hadoopuser,在hadoopuser下执行su - u hadooouser hdfs dfs -ls /user/hive/warehouse报错,报错信息如下。ls: Permission denied: user=hadoopuser, access=READ_EXECUTE, inode="/user/hive/warehouse":hive:hive:drwxrwx--x分析思路:...

2021-12-11 10:56:42 1457 1

原创 CDH 中hive的 Hive Metastore Server中JVM 堆栈内存溢出问题分析

问题: 在操作BDR迁移hive数据的过程中。新集群的CM界面突然无法显示,最中后台找到对应BDR任务手动杀死进程,重启集群的server和agent服务。CM界面正常显示,但是过了一会HMS异常退出。CM界面CMS中JVM 堆栈内存显示高出设定值。重启CMS过一段时间还是会自动挂掉。JVM 堆栈内存显示仍然高出设定值。问题: 经过排查发现元数据库磁盘空间不足,发现hive元数据库notification_log表竟然几百G,数据库扩容后仍然没用。最后查到noti...

2021-12-09 20:55:03 2762

原创 加入sentry后hive HMS的canary时间较长问题

异常问题: 给CDH6.3添加完sentry之后,使用创建的用户登录beeline,创建表的时候,操作需要 200s 多完成,查询数据没有问题。CH界面显示hive HMS的canary时长居高不下。创建测试表花费200sCM界面上hive的HMS Canary持续时间很长:原因: 因为是上sentry的时候出现的情况,所以应该是sentry信息同步的消息过慢;HMS 会实时向 Sentry 同步Notifications 请求,当需要大...

2021-12-09 20:36:54 1468

原创 Oracle的LOB(CLOB)大字段以及(SYS_LOB***$$)清理

oracle应用过程中出现表空间不足的时候,为了知道具体哪些表占用空间较大我们可以用如下sql查询:Select Segment_Name,Sum(bytes)/1024/1024 From User_Extents Group By Segment_Name order by Sum(bytes) desc;查询结过出现SYS_LOB***$$这种Segment_Name,记录着大字段占用空间。我们可用dba_objects表查询映射的是哪一个表的大字段;object_id为LOB后到C之间的那

2021-12-06 14:15:40 7222

原创 CDH修改静态资源池配置,NodeManager重启失败问题

问题描述:修改静态资源池配置的时候,重启整个CM之后,突然发现一个YARN中的NodeManager重启失败,问题NodeManager服务不能重启也不能停止。通过链接发现资源配置有一台还是以前的配置没有变化;http://hadoopip:8088/cluster/nodes解决方案:1、重启有问题的agent,systemctl restart cloudera-scm-agent2、在元数据库的CM用户下查询roles,查找role_type不是RUNNING的数据,更新这条数...

2021-11-30 17:49:35 1595

原创 CDH中出现丢失块处理

1、描述集群报块丢失的原因很多,一般CM界面会提示出来。出现这种情况该如何解决呢:2、修复先检测已损坏的块sudo -u hdfs hdfs fsck / > test.log后台执行命令查看输出文件中会提示丢失快的统计和具体有问题的文件路径和名称。如果文件不重要  直接将文件删除:hdfs dfs -rm -r/tmp/hadoop-yarn/staging/yebowen/.staging/job_1537174906503_876513/jo...

2021-11-30 11:21:20 1511

原创 CDH集群删除主机节点

1. 登录CM主页 - 选择“主机” - “所有主机”,勾选要删除的主机 -“停止主机上的角色”;2. 后台登录到要被删除的主机,停掉agent服务;已经设置了开机自启动的,要disable掉。sudo /etc/init.d/cloudera-scm-agent stopsystemctl status cloudera-scm-agent3. 再次登录CM主页 - 主机 - 所有主机,勾选要删除的主机 - 从集群中删除;4. 再次勾选要删除的主机 - Remo...

2021-11-30 10:07:50 2983

原创 Excel函数运用

COUNTIF 函数用于统计满足某个条件的单元格的数量 =COUNTIF(A2:A5,"London") =COUNTIF(A2:A5,A4) =COUNTIF(A2:A5,"苹果") 统计单元格 A2 到 A5 中包含“苹果”的单元格的数量。 结果为“2”。 =COUNTIF(A2:A5,A4) 统计单元格 A2 到 A5 中包含“桃子”(A4 中的值)的单元格的数量。 结果为 1。 ..

2021-11-10 17:01:20 122

原创 impala中 alter table add partition 对HDFS文件权限的影响

偶然的机会发现用其他用户重写impala用户下的分区数据时有些表报错,有些表不报错,重写报错信息(Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Exception when loading 1 in table)。最后发现都是用impala用户插入的分区数据有些HDFS文件权限是755,有些权限是777。最后发现是因为

2021-11-09 11:14:27 2290

原创 行转列,列转行操作

一列转多行:oracle实现方式:注意:以下只有单行数据或拆分单个字符串时候适用:WITH test AS(SELECT '11' COL1,'zhang,wang,li,huang' COL2 FROM DUAL)SELECT test.col1,test.col2, regexp_count(test.col2, '\,') + 1 as col2_num, regexp_substr(test.col2,'[^,]+',1,level) col2_new...

2021-11-03 13:44:47 4752

原创 服务器异常断开导致kudu无法启动问题(Data length checksum does not match: Incorrect checksum in file ... : Checksum )

某日一台服务器异常断开,无法登陆,后续正常后,agent服务自动重启,服务器上的各种角色也在启动恢复,但是kudu无法恢复。手动重启后失败:大概由于服务器异常断开,当时kudu正在进行数据写入操作,导致数据文件异常,报错如下:++ date+ timestamp='Wed Oct 13 10:57:02 CST 2021'+ echo 'Wed Oct 13 10:57:02 CST 2021: Found master(s) on hadoopap11,hadoopap12,hadoop..

2021-10-13 17:09:25 1040

原创 Mysql的linux安装

安装前准备:一:确认主机是否存在mariadb,存在的话,先卸载掉。确认当前主机是都存在mariadb, 如果主机未被安装过任何数据库先卸载老的mariadb##查看主机是否都有mariadbrpm -qa | grep mariadb ##卸载mariadbrpm -e --nodeps mariadb-libs-5.5.52-1.el7.x86_64sudo rpm -e --nodeps mariadb-libs-5.5.52-1.el7.x86_64##检查mar..

2021-09-15 16:09:18 334

原创 Mysql函数运用

Mysql中把ip地址和int数字互转:SELECT INET_ATON("127.0.0.1") FROM DUAL;SELECT INET_NTOA(1953789044) FROM DUAL;

2021-09-15 15:42:00 47

原创 EXCEL常用处理

Excel中把ip地址转换成int数字:=LEFT(E2,FIND(".",E2)-1)*256^3+MID(E2,FIND(".",E2)+1,FIND(".",E2,FIND(".",E2)+1)-FIND(".",E2)-1)*256^2+MID(E2,FIND(".",E2,FIND(".",E2)+1)+1,FIND(".",E2,FIND(".",E2,FIND(".",E2)+1)+1)-FIND(".",E2,FIND(".",E2)+1)-1)*256+RIGHT(E2,LEN(E2)

2021-09-15 15:07:02 1434

原创 常用正则表达式使用

电话手机的验证:"^\\d{4,6}$|^(\\d{3,4}-)?\\d{7,8}$|^[1][1-9]\\d{9}$"匹配中文字符的正则表达式:[u4e00-u9fa5] 匹配HTML标记的正则表达式:/<(.*)>.*<\/\1>|<(.*) \/>/ 匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*...

2021-09-15 14:29:48 47

转载 Kettle并行执行Trans后的合并问题

https://blog.csdn.net/weixin_34327761/article/details/86361866

2021-09-03 16:23:11 217

原创 kettle中如何实现循环

kettle使用循环样例如下:实现循环首先需要控制循环次数,并对每次循环进行累加标记。读取文本:现在读取某个表的数据进行循环(也可以读取某个文件进行循环):SELECT 'aaa' as id from dualunion allSELECT 'bbb' as id from dualunion allSELECT 'ddd' as id from dual初始化参数(JS脚本):var prevRow=previous_result.getRows..

2021-09-03 13:52:22 9018 1

原创 kudu使用注意事项

表:1、表的副本数必须为 奇数,最多7。2、副本数在建表的时候指定,之后无法更改主键:1、表创建后,主键不能修改。必须删除重指定新的2、主键列必须在非之前3、 主键列的值不能使用 UPDATEUPDATEUPDATEUPDATEUPDATEUPDATE函数修改。如果要主键的值只能删除 该行重新插入。4、 DOUBLE 、 FLOAT或BOOL 类型的列不能作为 主键,此外必须NOT NULL 。5、 不支持自动生成的主键(如自增列)6、 组合主键的所有列在编码后,大小不...

2021-08-25 13:47:24 744

原创 sqoop自动化抽取关系型数据库(oracle,mysql,postgresql)到大数据集群(按照时间段增量抽取)

本文介绍自动化按照指定时间段增量抽取关系型数据库(oracle,mysql,postgresql)到hive/impala。##增量抽数: 需要五个参数 参数1:增量标示 参数2: 源数据库用户名 参数3:hive表名(dwr_源表名) 参数4:where条件 参数5:开始时间 参数6:结束时间 ## sh /RPT/etlscript/sqoop/shell/sqoop_import_source_data_by_tables_add.sh add p3fdcadm dwr_EQP

2021-08-25 13:18:33 288

原创 在hive中生成的parquet文件 和 impala生成的parquet文件相比,大小不一样

使用sqoop抽取一批数据进入集群:MR抽取进来的大小是187.6 M 数据量 1516513测试一: 用impala把批数据进行插入 ,结果同样数据用户impala形成的文件占用磁盘59M,相比MR减少3倍;测试二:查询impala生成的结果数据,用hive方式插入使用hive执行压缩参数进行测试结果:无压缩效果;不管是查询hive的结果还是查询impala的结果最终用hive插入新的表中;最终大小都是187.6 M以下参数无效set hive.exec..

2021-08-22 16:42:24 418

原创 Out of resources when opening file ‘./xxx.MYD‘ (Errcode: 24)解决方法

spark程序在运行过程中,偶然有一天spark在读取mysql数据库的时候报错:Out of resources when opening file ‘./xxx.MYD’ (Errcode: 24)意思大概就是无法读取数据库文件了,该错误是因为打开的文件数超过了my.cnf的–open-files-limit。open-files-limit选项无法在mysql命令行 直接修改,必须在my.cnf中设定. 如果你要是不设置的话,他会取系统ulimit -n的值;数据库中查看:show variab

2021-08-21 21:38:17 462

原创 linux上 执行crontab 命令报 command not found问题,安装vixie-cron报错没有可用的软件包 vixie-cron

在服务器上准备使用crontab设置自动调度(生产环境一般已经存在crontab服务的);执行crontab -l的时候 ,结果报错:cron:command not found。生产环境没有cron服务着实有些意外。那就找度娘自己安装一个呗:根据提示安装 crontab,执行下面的命令:yum install -y vixie-cron结果加载一会突然出现报错:没有可用的软件包 vixie-cron错误:无需任何处理瞬间卡死在这里,仙人板板的,找了好久不知道怎么搞。结果不是安装vi.

2021-08-21 21:36:30 614

原创 oracle时间与时间戳互转

时间戳转换成时间:create or replace function sec_to_date(v_date number)RETURN date ISv_srcdate number(15); v_tmp number(15); v_year varchar2(10); v_hour varchar2(10); v_min varchar2(10); v_sec varchar2(10); v_out_date date;begin v_srcdate:=v_date+8*

2021-08-21 18:19:54 986

原创 CDH运维报错问题

ERROR Failed to connect to previous supervisor问题背景:CDH有一台服务器重启,然后重启agent的服务的时候总是重启后自动挂掉,该节点的所有大数据的组件都不能开启。查看log目录下的agent启动日志发现报如下错误:ERROR Failed to connect to previous supervisor后来查询有解释说,是因为服务器重启后,再启动agent会报这个错误,除非删掉主机重新配置集群supervisor重启有残留配置在,需要清

2021-08-21 17:09:34 3113

翻译 hadoop fs/hdfs dfs 命令集

hdfs dfs -test 常用命令:hdfs dfs -test-test -[defsz] <path>: Answer various questions about <path>, with result via exit status. -d return 0 if <path> is a directory. -e return 0 if <path>...

2021-08-21 16:49:35 1015

原创 shell统计任务执行时长

编写shell的时候经常遇见统计某一执行块消耗的时间,以下统计耗时转换成时:分:秒的方法。#传入秒.纳秒 转换成 <时:分:秒.毫秒> 格式function fun_use_hours(){ if [ $# -ne 2 ];then echo $@ echo "usage: fun_use_hours <start_date> <end_date>" echo " eg: fun_use_hours 1533274262 1533274263"

2021-08-21 13:45:59 1189

原创 shell中方法的使用

编写shell的时候方法的使用起到了很方便的作用#!/usr/bin/env bash#################################################################$Name :use_fun.sh#$Date :#$Author :#$Mail :#$Version :1.0#$Update :#$Description:# 方法使用案例##############################

2021-08-21 13:25:49 102

原创 linux时间处理

v_few_day_ago=`date -d "-3 days" +%Y%m%d`

2021-08-21 12:54:31 165

原创 shell中实现依赖执行(wait)

wait :可实现等待,等待上一个步骤执行完成。比如: a.sh ,执行完成之后在执行b.sh ,c.sh,执行完成之后 执行d.shecho "-----------start 调度开始;时间是:`date '+%Y%m%d %H:%M:%S'`----------------"start_date=`date +%s `sh a.sh&wait## b.sh和c.sh并行执行sh b.sh&sh c.sh &waitsh d.sh...

2021-08-21 12:46:15 401

原创 sqoop自动化抽取关系型数据库(oracle,mysql,postgresql)到大数据集群(全量抽取)

介绍自动化全量抽取关系新数据库(oracle,mysql,postgresql)到hive。##全量抽数: 需要五个参数 参数1:增量标示 参数2: 源数据库用户名 参数3:hive表名(dwr_源表名) 参数4:where条件 参数5:开始时间 参数6:结束时间 ## sh sqoop_import_source_data_by_tables_cover.sh cover db_name tab_name 20210721073000 20210721083000#获取传参cov

2021-08-20 16:51:37 308

Impala最佳实践 .pptx

impala使用部署中经验之谈

2021-09-08

小文件合并方案.docx

impala和hive中小文件合并问题解决

2021-09-07

Impala自动刷新元数据配置.docx

Impala自动刷新元数据配置.docx

2021-09-07

airfloor安装过程- 实测.docx

airfloor安装过程- 实测.docx

2021-09-06

CDH集群常用组件关键参数及修改建议.docx

CDH集群常用组件关键参数及修改建议.docx

2021-09-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除