weixin_43370502
码龄6年
关注
提问 私信
  • 博客:17,739
    17,739
    总访问量
  • 9
    原创
  • 1,740,402
    排名
  • 1
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2018-10-09
博客简介:

weixin_43370502的博客

查看详细资料
个人成就
  • 获得2次点赞
  • 内容获得9次评论
  • 获得25次收藏
创作历程
  • 3篇
    2023年
  • 2篇
    2022年
  • 5篇
    2019年
  • 3篇
    2018年
成就勋章
TA的专栏
  • Java
    1篇
  • JDBC
    1篇
  • oozie
    2篇
  • Hive
    3篇
  • sql
    3篇
  • Hue
    2篇
  • workflow
    3篇
  • Spark
    1篇
  • Yarn
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink onYarn 提交报错处理

flink on yarn 报错解决
原创
发布博客 2023.12.15 ·
199 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink SQL Checkpoint 学习总结

大概原因是因为写文件、生成commit的动作实在coordinator里面,只有当checkpoint完成后才会调用coordinator,所以不设置checkpoint就不会生成commit,这里的逻辑是在Hudi源码里(具体没看),也就是说checkpoint和生成hudicommit是绑定一起的,这样才能保证流写Hudi的事务性,这样才能保证checkpoint的EXACTLY_ONCE。MySQL数据量一致,且更新时间和插入时间一致,代表id=1、2的数据重启时没有重复消费,达到了预期效果。
转载
发布博客 2023.07.07 ·
1325 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

Java——时间日期格式化

Java 日期格式化
转载
发布博客 2023.01.11 ·
545 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

JDBC工具类

方式一、public class JDBCUtil_v1 { /* * 获取连接方法 */ public static Connection getConnection() { Connection conn = null; try { //加载驱动 Class.forName("com.mysql.cj.jdbc.Driver"); /* user是数据库名
转载
发布博客 2022.03.18 ·
144 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark读写Oracle性能深度调优

Spark作为一个分布式计算框架,可以很好的适用于Hadoop。那么Spark是否可以与关系型数据库较好的进行兼容呢?以Spark作为计算,以关系型数据库(例如Oracle)作为存储?  答案当然是可以,笔者经过不断地测试和优化,终于将Spark与Oracle进行了兼容匹配与读写优化。1、环境准备  在本次测试环境中,用6台机器搭建了CDH的Hadoop平台,Spark2.2版本搭配Yarn进行资源分配。  Spark通常采用JDBC来读写Oracle,所以在Spark环境下需要确保包含了JDBC包
转载
发布博客 2022.02.15 ·
2824 阅读 ·
1 点赞 ·
0 评论 ·
12 收藏

腾讯云MR任务调度同步

1、首先创建一个workflow工作流,拖取HiveServer2 和Sub-workflow 控件HiveServer2控件针对Hsql脚本,Sub-workflow复用Shell sqoop同步脚本如图:2、shell sqoop同步脚本参考1,拖取shell 脚本控件,如图这里涉及到参数传递以及环境设置特别是FILE那块的设置3、shell脚本如下:#!/bin/bash...
原创
发布博客 2019.10.12 ·
256 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive往mysql迁移数据sqoop报错注意事项

最近在帮同事迁移数据的时候sqoop老是报错,错误也不明显,在网上搜了一圈也没找,然后自己根据错误一步一步进行了排查,最终找到了原因,看到数据、表字段类型以及迁移表名是才恍悟,在做数据同步时一定要心细一些,不然问题五花八门错误如下:[root@master ~]# sqoop export --connect “jdbc:mysql://172.23.20.142:3306/tds?useUn...
原创
发布博客 2019.10.09 ·
1727 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Hue 调度出现乱码问题

最近BI反馈数据有问题,排查了下发现是业务的BUG导致的,重新调整了代码,在重新跑数据的时候,需要把业务上的测试数据过滤掉,然后在where条件后加了个过滤条件,而过滤条件是中文,在执行语句的时候,sql也不报错,但是测试数据还在,在后台手工跑数据是能过滤掉的,排查了下原因出在平台上,平台的字符不是默认UTF8,在把sql提交到yarn执行时中文变成了乱码不识别,自然过滤条件不就生效了,需要指定参...
原创
发布博客 2019.09.04 ·
1546 阅读 ·
0 点赞 ·
7 评论 ·
3 收藏

hive array与struct使用

最近在处理流式数据在读取redis的时候很慢,主要原因是查redis的时候用的模糊查询,key是使用svn提交的代码路径,而每来一条记录都要取redis查一遍,这样性能就会很差,查询字段是类名(例如:SbRollBackHandle.java),为了不使用模糊查询,线下基于hive svn log进行了分析寻找合适的key,驱动业务调整日志打印格式;在分析svn log的时候发现用了一些复杂的结构...
原创
发布博客 2019.08.06 ·
854 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark on yarn 中文乱码

最近接了个云端日志项目,Logstash采集日志,抛到kafka集群,有sparkstreaming进行数据转,根据className查询redis获取相关提交人以及日期带出来,抛到rocketmq供其他部门使用,细节省略;在spark-submit 提交代码到集群或者客户端运行的时候出现乱码,遇到这种情况,想到的就是编码问题,因为在在本地运行spark streaming是可以处理中文的,放...
原创
发布博客 2019.08.02 ·
2828 阅读 ·
1 点赞 ·
1 评论 ·
2 收藏

Hue提交Job异常报错

2018-09-17 16:32:13,686 INFO ActionStartXCommand:520 - SERVER[172.16.5.200] USER[hadoop] GROUP[-] TOKEN[] APP[My Workflow] JOB[0000004-180917163013421-oozie-hado-W] ACTION[0000004-180917163013421-ooz...
原创
发布博客 2018.10.26 ·
1909 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Job hold原因排查

公司最近搭建了一套hadoop大数据测试环境,使用的都是默认参数,在提交hive任务的时候老是hold,针对这种现象在yarn WebUI界面查看日志;页面如图:日志内容如下:2018-09-14 10:00:06,939 INFO [ContainerLauncher #0] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLau...
原创
发布博客 2018.10.11 ·
1751 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive 多列转行 (if函数)

最近有个项目需要做数据导出(基于底层宽表),具体业务逻辑在这就不详细介绍,以下是具体实现方案:列转换–方案一 case when 与max 或sumselect *from (select dzgs_dqbm,max(bs_wks) bs_wks,max(bs_jxz) bs_jxz,max(bs_ywc) bs_ywc,max(bs_wks_ztdm) wks_ztdm,max...
原创
发布博客 2018.10.09 ·
1779 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏