自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Dmaple的博客

落叶匆匆过,你我皆是打工者

  • 博客(14)
  • 收藏
  • 关注

原创 flink on yarn消费kafka报错

报错信息大概的意思是不能将实例值赋值给xx实例。场景:在启动的standalone集群模式中,是可以正常消费kafka的。在flink on yarn中报这个错。让我很是差异,猜测是环境差异问题,然后一直在查。

2024-09-29 20:15:00 485

原创 入门级 Flink运行在cdh的yarn上

CDH已经搭建好的情况下,运行不起来,提示没有配置hadoop_home的环境变量,于是我找了找,最后配置了hadoop_home。参考的尚硅谷的教程,自己琢磨做的demo。解决这两个问题后,提交运行成功。于是在配置时勾掉这个。

2024-09-20 20:00:00 255

原创 linux与shell的一些常见使用心得

之前好久不写shell了,现在的工作又开始经常写shell,有些生疏,不如记录一些,以备不时之需。场景:目录下有n多子目录,需要遍历子目录下的.zip文件。加压文件并移动到指定目录。写shell的时候尽量写绝对路径,不要写相对路径,指不定cd到哪里。功能点:遍历目录下的所有子目录。fn即abc,去除后缀的文件名。宁可少删,不要多删。

2023-07-14 11:00:51 125

原创 hive日期夏令时问题,输入数据,结果减了一个小时,jdk版本不同

疫情三年四月六日,2022年4月6日 20:40:05夏令时数据,这个问题本身就挺难描述的其实。最近遇到了一点问题,同一条数据从oracle源通过dataX抽取至mc(类似hive)后,数据发生了变动,oracle是1987-09-14 00:00:00,在mc里查询后发现有时是1987-09-14 00:00:00,有时是1987-09-13 23:00:00,我也是查询了很多资料,而且是偶发性的异常,有时候对,有时候错,后来定位到问题是物理机的版本不一致造成的,同一个集群,但是两台物理机底层jd

2022-04-06 20:43:56 1990 1

原创 mybatis:foreach与if标签组合,动态sql的完成

java mybatis的使用心得

2021-12-19 13:00:23 3387

原创 kafka数据写入速度优化【项目经验总结】

先说结论:调整集群参数# 每当producer写入10000条消息时,刷数据到磁盘 log.flush.interval.messages=10000# 每间隔1秒钟时间,刷数据到磁盘 log.flush.interval.ms=1000好久没有更新了,沣哥给介绍了个对象,也不知道能不能成,看的看不上咱0.0回归主题,前几天领导给我派了个活,说客户的kafka消费速度有问题,派我出差去排查一下,我到了现场后先梳理了一下数据链路,一个服务(二进制数据流)->kafkatopic1-&

2021-11-13 16:54:29 5297

原创 hive函数 lead()和lag()

lead()函数和lag()这两个在实际业务中其实用的并没有那么多,不过在sql的面试当中倒是经常出现需要用到lead()和lag()这两个函数的问题,且通常使用这个函数的案例其实都是取连续的日期,之前硬是靠自关联写了一大堆sql写出来的(汗),今天突然发现了这两个函数,就正好写一下吧使用.lead()函数里面可以输入三个参数:(字段,向前行数,值如果为null的话的补充值)不过这两个一个是取前一条数据,一个是取后一条,我这里拿具体的例子来写一下吧场景1:select day_id a

2021-07-30 18:00:21 776

原创 编写sql时如何进行有效自测以及提升数据质量

今天与领导沟通时总结了一下,因为数据这个东西,测试起来很麻烦,但是作为开发,需求做完后我还是得保证数据质量这个问题,所以有效的自测,也应该是一个具体的流程.术语:mapping: 需求文档ods:数仓贴源层,即最开始采集过来的数据dwd:数仓明细层,即对ods进行一定的清洗,转换,补充字段造出得明细表dws:数仓主题层,本层数据多为主题宽表,字段很多,且有一定的聚合操作ads:数仓应用层,本层为应用层数据,是对dws或者dwd进行一定的计算操作得来的,是给用户看的数据,也可以叫报表.

2021-07-28 17:16:40 718

原创 flume-kafka搭配,采集日志的基础使用

最近在看这些数据采集的大数据组件,自己写了一点基础的测试前期准备:flume kafka组件可正常使用,有hdfs修改权限监控的文件是/opt/module/logs/tt.log所以正常启动后mkdir -p/opt/module/logsecho "这是一首简单的小情歌" >> /opt/module/logs/tt.log向这个tt.log文件输入数据,就可以监听了文件名为fk.conf,存储路径是flume下创建的jobs文件夹启动命令:bin..

2021-06-01 10:57:42 251

原创 beeline连接失败 No current connection

beeline 本身其实是不连接hive的,需要额外的配置。我这里是搭建CDH6.3.1的后配置hive服务遇到的问题beeline进入后输入show tables显示的是No current connection

2021-05-29 20:23:54 12683 1

原创 根据excel需求文档生成sql语句

这是一个很实用的工具代码:场景: 一个需求文档,做一张大宽表,一百多个字段,你看着需求文档望而兴叹.解决:例子:="`"&B14&"` string comment'"&C14&"',"结构拆分:"`"+&B14&+"` string comment'"+C14&"',"含义就是 `变量B14的值` string comment'变量C14的值',在这个位置输入数据以上代码最后生成结果:技术含量不高,但是好用的一

2021-04-30 17:11:34 305 1

原创 hive分区删除分区失败,出现$%7Bworkdate}分区且无法删除

最近查看hive表分区时,突然发现有个$%7Bworkdate分区无法删除上网大概查了一下,意思是这个分区原来名字不叫这个,被转码了,所以无法删除所以需要代码alter table tablename drop partition (workdate="${workdate}");其实这个乱码产生的原因是因为把本来写到.sql文件里的sql代码在hive窗口中直接运行分区名称就是"${workdate}"在窗口中运行时没有更改,然后分区的名称就是${workdate},然后显示为$%

2020-12-02 16:43:08 882

原创 shell清除文件末尾所有空行

前几天有个工作上的需求,上游把数据从excel转csv,这样发给我们的数据就有一大堆的空行,当发现第一个空行之后,后面的所有行都是空行,所以写了一份代码进行校验for dir in $(ls *.txt)do line_now=1 line_count=$(awk 'END{print NR}' $dir) for i in `seq 1 $line_count` do line_now=`expr $line_now + 100` line_content=`sed -n ''${

2020-10-20 17:54:24 1778

原创 incov转码无法生成文件

前些天写shell,需要转码文件,使用incov命令incov -f UTF-8 -t GBK file.txt -o file.csv转码后无法生成文件,且不报错。排查问题后发现,是因为incov如果转码的文件是空的,那么就不会生成文件。想查看命令源代码来着,但是发现有些麻烦就先算了,最近挺忙的。因为是处理某个需求下产生的脏数据,有时没有脏数据,文件就是空的,就会造成这种问题。--2020年10月12日 19:21:10 心情不是很好,求复合失败了...

2020-10-12 19:23:14 433

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除