me凡-CSDN博客

原创致大数据开发者的一句忠言

时间：2022年4月20号背景：在公司一年半后选择离职，三月份找了将近一个月的工作，最终算是拿到满意的offer找工作的感受：四年工作经验，三份工作经历，面的是大数据开发岗，因为过往工作内容比较繁琐，集群运维，Flink实时，数据治理，数仓报表都做过，就是因为什么都做过，貌似简历里没办法体现某一个方向的深度，但找工作，还是要着重某个方向，过往的Java工作也少，编程功底一般，终结就是：亮点没有，缺点很明显。这次找工作让我有一种快要失业的感觉，多少有点恐慌。对大数据行业的浅解：大数据分数仓（离线，

2022-04-20 15:42:22 2442

原创 git idea中常用命令

【代码】git idea中常用命令。

2025-02-12 10:19:11 132

原创 hive 秒转换成日期格式

比如 100秒转成 00:01:40。

2024-08-28 09:35:44 203 1

转载 hive常用日期格式转换

[1144]Hive常用日期格式转换-腾讯云开发者社区-腾讯云

2024-01-30 10:55:53 154

原创超niu的正则

正则表达式，下划线匹配

2024-01-08 17:11:35 476

原创 Flink 消费Kafka每日不定时积压（非重启不能解决）问题排查解决

进来看看吧，说不定有收获

2022-07-25 11:16:27 4957 2

原创 Doris或StarRocks Jmeter压测

测试介绍：1. 配置化sql where条件（5个线程，每个线程执行不同的where条件，通过csv文件实现）2. 实现固定并发数执行几分钟（如果只是固定并发数执行一次，压测是不合格的，QPS是达不到你设置的并发数）整个测试涉及到的大概这么多1. Jmeter JDBC连接Doris或StarRocks兼容mysql协议，通过jdbc方式连接说是要加个mysql-connect的jar包2. csv配置化比如我3个线程执行3...

2022-05-17 11:29:54 3699

原创 Flink面试常见的25个问题（无答案）

flink和spark streaming的优缺比较 Flink on Yarn任务提交流程 Flink Sql的执行过程 Flink所使用的版本 Flink 内存模型 Flink Watermark机制 Flink CheckPoint机制？kafka exactly-once的两阶段提？ Flink 状态存储backend类型？RocksDBStateBendback的使用场景，优缺点？Flink1.14版本状态存储类型的变化？ FlinkSql 无界流聚合中mini-batch的使.

2022-03-30 14:43:30 2613

原创 python 发送邮件/正文插入表格

##将写入本地的excel文件发送至目标邮箱，并读取前7行7列做展示#邮件发送方，收件方，数据为数据[[1,2],[1,3]]这种数组格式的,邮件主题,发送方密码 # sendAddr = '' # recipientAddrs = '' # email_subject = '' # password = ''def send_mail_excel(sendAddr,recipientAddrs,alarm_nodes,email_subject,password):.

2021-10-14 17:48:01 8589 5

原创 flinksql 窗口提前触发

场景：一天的窗口，想每分钟或其他时间点触发一次insert into sliding_window_local_pay_dayselect userid, TUMBLE_START (ptime, INTERVAL '1' DAY) as window_start, TUMBLE_END (ptime, INTERVAL '1' DAY) as window_end, COUNT (1) as pay_numfrom flink_kafka_join_paygroup by TU

2021-09-22 17:26:46 1640

原创 Flink checkpoint源码理解

参考：https://blog.jrwang.me/2019/flink-source-code-checkpoint/#checkpoint-%E7%9A%84%E5%8F%91%E8%B5%B7%E6%B5%81%E7%A8%8Bhttps://cloud.tencent.com/developer/article/1593969https://blog.csdn.net/zc19921215/article/details/108171455Flink checkpoint主要包括 bar

2021-08-26 19:18:37 752 1

原创 Flink Interval Join源码理解

参考：https://www.jianshu.com/p/179beca9f307interval join ：两条数据流+between边界+过期数据清理demo:下面看下源码实现intervalJoin 属于 KeyedStream，源码部分也在KeyedStream中KeyedStream的intervalJoin创建并返回IntervalJoin IntervalJoin提供了between操作，用于设置interval的lowerBound及upperBound...

2021-08-11 20:08:45 846

原创前端实现表格中的颜色变化以及不同点击效果

目标：1. 实现根据不同status显示不同颜色 2. 实现表格中对应链接根据不同状态不同点击效果效果：不同任务状态不同颜色显示，不同重启次数不同颜色显示，WebUi 在RUNNING状态点击跳转到对应web，其他状态则点击提示任务未运行，无法跳转实现：html <div class="card-body"> <div class="table-responsive" style=""&gt...

2021-07-13 10:24:13 1534 3

原创前端实现表格分页，排序，全局模糊搜索

html<table id="odpsColumnsDetails" class="table table-bordered "> </table>js部分重点在 DataTable，这个是jquery.dataTables.min.js 中的，所以要引入这个js可以参考：https://datatables.net/examples/data_sources/js_array.html 官方最靠谱$('#odpsColumnsDetails').Dat..

2021-07-08 10:55:58 1152

原创 FlinkSql多表(三表) join/interval join

直接上sql和数据流图一： join(regular join)insert into `flinkThreeWaterT`select ck.userid, ck.click, py.payway, pc.price, ck.ctime, py.ptime, pc.etimefrom ( select userid, click, TO_TIMESTAMP (ctime) as ctime from flink_kafka_join_click)

2021-06-09 17:01:19 5141 2

原创 Neo4j基础指南（安装，节点和关系数据导入，数据查询）

1. linux 部署https://blog.csdn.net/u013946356/article/details/817362322. load csv数据（节点Node以及关系Relation）比如：node csv数据样例：nodeId"1""2""3""4""5"数据导入：在该输入框中输入以下命令（注意file的路径）:auto USING PERIODIC COMMIT 1000 LOAD CSV WITH HEADERS FROM "file..

2021-05-13 17:45:12 793 1

原创 Flask学习最佳入门指南

博客不是自己的，不过是我找了好多天才发现的好博客刚入门的可以看：《Flask 入门教程》第 X 章：****见链接：https://www.zhihu.com/people/im-greyli

2021-03-12 10:09:27 358

原创 Flink Kafka两阶段提交理解

1. 参考https://zhuanlan.zhihu.com/p/1113042812. Two-Phase Commit（2PC）分为提交请求（投票）和提交（执行）两个阶段3.在Flink KafkaProducer中继承了TwoPhaseCommitSinkFunction来实现两阶段提交的功能(要弄清楚两阶段分别干了什么事) 该类下有四个子类 protected abstract TXN beginTransaction() throws Exceptio...

2021-02-20 19:01:53 2166 1

原创 Flink 滑动窗口理解&具体业务场景介绍

1. 窗口划分与数据清理 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); DataStreamSource<String> local

2020-12-22 17:59:50 3599 4

原创 Flink1.11 intervalJoin watermark生成，状态清理机制源码理解&Demo分析

参考博客https://cloud.tencent.com/developer/article/1738836数据类型为左流FlinkClick(userid=gk01, click=Pay, ctime=2020-12-14 09:55:00.000) ; 右流为FlinkPay(userid=gk01, payway=alipy, ptime=2020-12-14 09:58:00.000)join的这段代码如下 clickOut.keyBy(t->t.getUs...

2020-12-14 20:41:22 2630 3

原创 flink1.11 sql本地运行demo & 本地webUI可视解决

1. pom依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.11.0</flink.version> <avro.version>1.8.2</avro.version> <java.version

2020-11-28 18:13:31 1970 2

原创 Hive 统计连续次数

参考该博客 https://bbs.csdn.net/topics/392243867数据为：用户id#uid 登录日期#loaddateuid loaddate201 2017-01-06 00:00:00201 2017-01-05 00:00:00201 2017-01-04 00:00:00201 2017-01-01 00:00:00201 2017-01-02 00:00:00202 2017-01-03 00:00:00202 2017-01-05 00:00:...

2020-11-20 17:28:11 5699

原创 Flink1.11 多并行度watermark测试

source 单并行度参考https://blog.csdn.net/xu470438000/article/details/83271123结论：###窗口触发条件1、watermark时间 >= window_end_time2、在[window_start_time,window_end_time)中有数据存在###对于设置了allowedLateness(Time.seconds(N))的1. 第一次触发是在watermark >=window_end_time时.

2020-11-09 17:23:40 882 7

原创 Flink1.11 Jdcb方式写mysql测试用例

本demo是计算窗口内wordCount然后写入mysql//数据通过jdbc方式sink到mysql windowCounts.addSink(JdbcSink.sink("replace into flink_test(words,nums) values(?,?)", new JdbcStatementBuilder<Tuple2<String, Integer>>() { @Ove.

2020-11-06 11:14:29 1141

原创 spring cloud 整合mybatis plus（xml配置和注解使用小教程）

项目见githubhttps://github.com/fan-code/mybatis_plus.git该文章参考了https://www.jianshu.com/p/1986472195921. 项目整体层级2. 先建mysql表和导数CREATE TABLE user ( id BIGINT(20) NOT NULL COMMENT '主键ID', name VARCHAR(30) NULL DEFAULT NULL COMMENT '姓名', age...

2020-10-17 14:56:05 1222

原创 Apache superset直连hive如何配置yarn资源队列参数(已解决）

对于小公司来说，superset这款BI工具相当优秀，丰富的数据源，炫酷的dashboard能满足基本查询要求现在关注下查询hive，superset可以直接对接hive或者通过presto由于公司大数据集成设置有资源队列，即 mapred.job.queue.name，在直接对接hive的时，如果不配置此参数，任务无法提交到yarn上解析运行如何配置呢？环境：集成了ldap的hive，资源队列划分在这个URI里是配置不了资源队列的，资源队列配置配置如下"connect_.

2020-09-23 16:28:16 1175

原创多线程之wait(),sleep(),notify(),notifyAll()

本文主要理解锁与这些方法的关系（参考了其他文章）1.wait（）和sleep（）的区别 1.1 wait()wait()使当前线程阻塞，前提是必须先获得锁，一般配合synchronized 关键字使用，即一般在synchronized 同步代码块里使用 wait()、notify/notifyAll() 方法。 wait()方法则是指当前线程让自己暂时退让出同步资源锁，以便其他正在等待该资源的线程得到该资源进而运行，只有调用了notify()方法，之前调用wait()的线程才会解除wa..

2020-07-23 19:24:52 331

原创 flink cep对于超时时间处理patternTimeoutFunction

Flink Cep是对复杂时间处理的一种手段，通过规则进行匹配，比如有 A B A C B C D是个消息，我们想获取 B C这种事件的消息，就可以通过定义相关规则来进行业务处理，通常我们会对C消息到达的时间有要求，比如在3s之内，那么我们获得超出3s已经匹配到的消息呢？现在来讨论下Flink CEP对于超时时间的处理直接上demo（实现功能，匹配click后为buy事件的消息，事件限定为5s，同时获取超时时间外匹配的消息）git地址https://github.com/fan-code/fl.

2020-06-09 14:27:00 1991

原创 flink sink数据到elasticsearch(scala&java)

代码参考了 zhisheng的java http://www.54tianzhisheng.cn/2018/12/30/Flink-ElasticSearch-Sink/以及同事的scala，在此说明一下java 有add和upsert操作scala只有upsert操作代码git连接https://github.com/fan-code/flinkSink2Es

2020-05-27 11:51:19 878

原创 NoClassDefFoundError: org/apache/flink/streaming/api/environment/StreamExecutionEnvironment 已解决

依赖中有配置 去掉即可

2020-05-26 16:28:36 3206 1

原创 flume自定义拦截器：根据业务数据中的时间戳实现数据在hdfs中的正确分区

业务场景：埋点数据落hive表，且埋点数据中带有数据产生时的时间字段业务流程：kafka->flume->hdfs->hive问题：晚到的埋点数据会落到哪个分区中 9点产生的埋点数据由于数据上报或者flume sink的延迟会落到9点的分区中么？答案是不会的flume抽取到的数据也成为event，event分为header和body，如果你flume sink...

2020-03-20 11:39:35 1392

原创 flume hdfs sink报错: java.lang.NoSuchFieldError: IGNORE_CLIENT_LOCALITY

集群环境：CDH 6.2.0Hadoop 3.0.0在使用flume hdfs sink时报错，java.lang.NoSuchFieldError: IGNORE_CLIENT_LOCALITYflume sink在相应目录下创建了.tmp文件，但无法写入数据2020-03-16 18:32:44,757 (SinkRunner-PollingRunner-Default...

2020-03-17 10:57:30 1142

原创 sparkthrift服务隔段时间正常退出

CDH6.2集成sparkThrift服务参考https://blog.csdn.net/qq_34864753/article/details/102729859公司网络组为了安全起见购买了华为的防火墙，安装上后启动的sparkThrift服务隔2小时10分钟后就会断开，而且是正常断开sparkThrift日志2020-01-17 13:25:25 INFO HiveS...

2020-01-18 10:16:26 1219 2

原创 kafka集群监控（kafka_exporter&prometheus&Grafana）

为了更直观的展示kafka实时消息生产速率以及某一topic下group_id与当前kafka之间的消息积压情况，采用kafka_exporter，promehues，grafana将相关指标实时展示1. 下载 kafka_exporter(所在机器需与kafka集群网络相通)wgethttps://github.com/danielqsj/kafka_exporter/release...

2020-01-13 11:07:28 19086 12

原创 Superset 集成mysql数据库及报错 No module named 'MySQLdb'解决

superset安装请参考https://blog.csdn.net/qq_34864753/article/details/93517511这是superset添加数据源的界面点击Test Connection 报错No module named 'MySQLdb'"需要安装 mysqlclient ，过程不会是一帆风顺的，报错，最初是机器没开外网（公司安全管控比较严...

2019-12-20 14:54:27 2423 5

原创 kafka同一个topic和gruopid下的双flume客户端消费测试

业务场景：单个flume客户端无法消费某个数据量很大的topic，因此起两个flume去消费同一个topic数据流：kafka--->flume---->oss(阿里云的分布式存储服务，可以是hdfs)01.conf 和 02.conf配置的topic和group.id以及数据存储路径都保持一致，不同的是文件前缀01.conf配置02.conf配置我这边在...

2019-12-19 18:11:37 745

原创 sentry权限查看

搭建的CDH集成了sentry，通过HUE来设置相关权限，具体角色有哪些权限呢？如何查看？1. 进入sentry所在数据库跟权限相关的就下两个表

2019-12-10 17:43:32 1139

原创 kerberos环境下的presto集群安装

1. 没有kerberos环境的presto集群安装请参考https://blog.csdn.net/Alongpo/article/details/89499400kerberos安装需更改 /catalog 下的hive.properties文件,其余参考1 即可

2019-12-03 17:57:17 327

原创 python3解决No module named '_bz2'和libbz2.so.1.0: cannot open shared object file问题

解决No module named '_bz2将 bz2.cpython-36m-x86_64-linux-gnu.so放在/usr/local/python3.6/lib/python3.6/lib-dynload目录下https://pan.baidu.com/s/1ChN7mFxIyWwXn7lVtoeVKw如果失效，去https://pan.baidu.com/s/1fHh...

2019-11-20 18:11:26 4223

原创 apache druid压力测试（工具:jmeter）

1. 官网下载http://jmeter.apache.org/2. 解压进入bin目录，双击ApacheJMeter.jar 运行程序3.添加以下服务线程组：这里你可以设置线程数和循环次数等http请求：http信息头管理器汇总报告/汇总图/查看结果树都是查看请求状态和请求结果的，重要的是汇总图，可以看到请求的响应时间，下面的图是测试800个并发结...

2019-11-19 14:37:34 1299

空空如也

空空如也