自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 致大数据开发者的一句忠言

时间:2022年4月20号背景:在公司一年半后选择离职,三月份找了将近一个月的工作,最终算是拿到满意的offer找工作的感受:四年工作经验,三份工作经历,面的是大数据开发岗,因为过往工作内容比较繁琐,集群运维,Flink实时,数据治理,数仓报表都做过,就是因为什么都做过,貌似简历里没办法体现某一个方向的深度,但找工作,还是要着重某个方向,过往的Java工作也少,编程功底一般,终结就是:亮点没有,缺点很明显。这次找工作让我有一种快要失业的感觉,多少有点恐慌。对大数据行业的浅解:大数据分数仓(离线,

2022-04-20 15:42:22 2133

原创 Flink 消费Kafka每日不定时积压(非重启不能解决)问题排查解决

进来看看吧,说不定有收获

2022-07-25 11:16:27 1872 2

原创 Doris或StarRocks Jmeter压测

测试介绍:1. 配置化sql where条件 (5个线程,每个线程执行不同的where条件,通过csv文件实现)2. 实现固定并发数执行几分钟(如果只是固定并发数执行一次,压测是不合格的,QPS是达不到你设置的并发数)整个测试涉及到的大概这么多1. Jmeter JDBC连接Doris或StarRocks兼容mysql协议,通过jdbc方式连接说是要加个mysql-connect的jar包2. csv配置化比如我3个线程 执行3...

2022-05-17 11:29:54 1268

原创 Flink面试常见的25个问题(无答案)

flink和spark streaming的优缺比较 Flink on Yarn任务提交流程 Flink Sql的执行过程 Flink所使用的版本 Flink 内存模型 Flink Watermark机制 Flink CheckPoint机制?kafka exactly-once的两阶段提? Flink 状态存储backend类型?RocksDBStateBendback的使用场景,优缺点?Flink1.14版本状态存储类型的变化 ? FlinkSql 无界流聚合中mini-batch的使.

2022-03-30 14:43:30 2313

原创 python 发送邮件/正文插入表格

##将写入本地的excel文件发送至目标邮箱,并读取前7行7列做展示#邮件发送方,收件方,数据为数据[[1,2],[1,3]]这种数组格式的,邮件主题,发送方密码 # sendAddr = '' # recipientAddrs = '' # email_subject = '' # password = ''def send_mail_excel(sendAddr,recipientAddrs,alarm_nodes,email_subject,password):.

2021-10-14 17:48:01 3868 4

原创 flinksql 窗口提前触发

场景:一天的窗口,想每分钟或其他时间点触发一次insert into sliding_window_local_pay_dayselect userid, TUMBLE_START (ptime, INTERVAL '1' DAY) as window_start, TUMBLE_END (ptime, INTERVAL '1' DAY) as window_end, COUNT (1) as pay_numfrom flink_kafka_join_paygroup by TU

2021-09-22 17:26:46 758

原创 Flink checkpoint源码理解

参考:https://blog.jrwang.me/2019/flink-source-code-checkpoint/#checkpoint-%E7%9A%84%E5%8F%91%E8%B5%B7%E6%B5%81%E7%A8%8Bhttps://cloud.tencent.com/developer/article/1593969https://blog.csdn.net/zc19921215/article/details/108171455Flink checkpoint主要包括 bar

2021-08-26 19:18:37 347 1

原创 Flink Interval Join源码理解

参考:https://www.jianshu.com/p/179beca9f307interval join :两条数据流+between边界+过期数据清理demo:下面看下源码实现intervalJoin 属于 KeyedStream,源码部分也在KeyedStream中KeyedStream的intervalJoin创建并返回IntervalJoin IntervalJoin提供了between操作,用于设置interval的lowerBound及upperBound...

2021-08-11 20:08:45 389

原创 前端实现表格中的颜色变化以及不同点击效果

目标:1. 实现根据不同status显示不同颜色 2. 实现表格中对应链接根据不同状态不同点击效果效果: 不同任务状态不同颜色显示,不同重启次数不同颜色显示,WebUi 在RUNNING状态点击跳转到对应web,其他状态则点击提示 任务未运行,无法跳转实现:html <div class="card-body"> <div class="table-responsive" style=""&gt...

2021-07-13 10:24:13 812 3

原创 前端实现表格分页,排序,全局模糊搜索

html<table id="odpsColumnsDetails" class="table table-bordered "> </table>js部分重点在 DataTable,这个是jquery.dataTables.min.js 中的,所以要引入这个js可以参考:https://datatables.net/examples/data_sources/js_array.html 官方最靠谱$('#odpsColumnsDetails').Dat..

2021-07-08 10:55:58 501

原创 FlinkSql多表(三表) join/interval join

直接上sql和数据流图一: join(regular join)insert into `flinkThreeWaterT`select ck.userid, ck.click, py.payway, pc.price, ck.ctime, py.ptime, pc.etimefrom ( select userid, click, TO_TIMESTAMP (ctime) as ctime from flink_kafka_join_click)

2021-06-09 17:01:19 2442 2

原创 Neo4j基础指南(安装,节点和关系数据导入,数据查询)

1. linux 部署https://blog.csdn.net/u013946356/article/details/817362322. load csv数据(节点Node以及关系Relation)比如:node csv数据样例:nodeId"1""2""3""4""5"数据导入: 在该输入框中输入以下命令(注意file的路径):auto USING PERIODIC COMMIT 1000 LOAD CSV WITH HEADERS FROM "file..

2021-05-13 17:45:12 334 1

原创 Flask学习最佳入门指南

博客不是自己的,不过是我找了好多天才发现的好博客刚入门的可以看:《Flask 入门教程》第 X 章:****见链接:https://www.zhihu.com/people/im-greyli

2021-03-12 10:09:27 209

原创 Flink Kafka两阶段提交理解

1. 参考https://zhuanlan.zhihu.com/p/1113042812. Two-Phase Commit(2PC)分为 提交请求(投票)和提交(执行)两个阶段3.在Flink KafkaProducer中继承了TwoPhaseCommitSinkFunction来实现两阶段提交的功能(要弄清楚两阶段分别干了什么事) 该类下 有四个子类 protected abstract TXN beginTransaction() throws Exceptio...

2021-02-20 19:01:53 1116

原创 Flink 滑动窗口理解&具体业务场景介绍

1. 窗口划分与数据清理 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); DataStreamSource<String> local

2020-12-22 17:59:50 2069 3

原创 Flink1.11 intervalJoin watermark生成,状态清理机制源码理解&Demo分析

参考博客https://cloud.tencent.com/developer/article/1738836数据类型为左流FlinkClick(userid=gk01, click=Pay, ctime=2020-12-14 09:55:00.000) ; 右流为FlinkPay(userid=gk01, payway=alipy, ptime=2020-12-14 09:58:00.000)join的这段代码如下 clickOut.keyBy(t->t.getUs...

2020-12-14 20:41:22 1451 2

原创 flink1.11 sql本地运行demo & 本地webUI可视解决

1. pom依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.11.0</flink.version> <avro.version>1.8.2</avro.version> <java.version

2020-11-28 18:13:31 1108 2

原创 Hive 统计连续次数

参考该博客 https://bbs.csdn.net/topics/392243867数据为:用户id#uid 登录日期#loaddateuid loaddate201 2017-01-06 00:00:00201 2017-01-05 00:00:00201 2017-01-04 00:00:00201 2017-01-01 00:00:00201 2017-01-02 00:00:00202 2017-01-03 00:00:00202 2017-01-05 00:00:...

2020-11-20 17:28:11 3267

原创 Flink1.11 多并行度watermark测试

source 单并行度参考https://blog.csdn.net/xu470438000/article/details/83271123结论:###窗口触发条件1、watermark时间 >= window_end_time2、在[window_start_time,window_end_time)中有数据存在###对于设置了allowedLateness(Time.seconds(N))的1. 第一次触发是在watermark >=window_end_time时.

2020-11-09 17:23:40 501 7

原创 Flink1.11 Jdcb方式写mysql测试用例

本demo是计算窗口内wordCount然后写入mysql//数据通过jdbc方式sink到mysql windowCounts.addSink(JdbcSink.sink("replace into flink_test(words,nums) values(?,?)", new JdbcStatementBuilder<Tuple2<String, Integer>>() { @Ove.

2020-11-06 11:14:29 721

原创 spring cloud 整合mybatis plus(xml配置和注解使用小教程)

项目见githubhttps://github.com/fan-code/mybatis_plus.git该文章参考了https://www.jianshu.com/p/1986472195921. 项目整体层级2. 先建mysql表和导数CREATE TABLE user ( id BIGINT(20) NOT NULL COMMENT '主键ID', name VARCHAR(30) NULL DEFAULT NULL COMMENT '姓名', age...

2020-10-17 14:56:05 883

原创 Apache superset直连hive如何配置yarn资源队列参数(已解决)

对于小公司来说,superset这款BI工具相当优秀,丰富的数据源,炫酷的dashboard能满足基本查询要求现在关注下查询hive,superset可以直接对接hive或者通过presto由于公司大数据集成设置有资源队列,即 mapred.job.queue.name,在直接对接hive的时,如果不配置此参数,任务无法提交到yarn上解析运行如何配置呢?环境:集成了ldap的hive,资源队列划分在这个URI里是配置不了资源队列的,资源队列配置配置如下"connect_.

2020-09-23 16:28:16 875

原创 多线程之wait(),sleep(),notify(),notifyAll()

本文主要理解锁与这些方法的关系(参考了其他文章)1.wait()和sleep()的区别 1.1 wait()wait()使当前线程阻塞,前提是 必须先获得锁,一般配合synchronized 关键字使用,即一般在synchronized 同步代码块里使用 wait()、notify/notifyAll() 方法。 wait()方法则是指当前线程让自己暂时退让出同步资源锁,以便其他正在等待该资源的线程得到该资源进而运行,只有调用了notify()方法,之前调用wait()的线程才会解除wa..

2020-07-23 19:24:52 156

原创 flink cep对于超时时间处理patternTimeoutFunction

Flink Cep是对复杂时间处理的一种手段,通过规则进行匹配,比如有 A B A C B C D是个消息,我们想获取 B C这种事件的消息,就可以通过定义相关规则来进行业务处理,通常我们会对C消息到达的时间有要求,比如在3s之内,那么我们获得超出3s已经匹配到的消息呢?现在来讨论下Flink CEP对于超时时间的处理直接上demo(实现功能,匹配click后为buy事件的消息,事件限定为5s,同时获取超时时间外匹配的消息)git地址https://github.com/fan-code/fl.

2020-06-09 14:27:00 1333

原创 flink sink数据到elasticsearch(scala&java)

代码参考了 zhisheng的java http://www.54tianzhisheng.cn/2018/12/30/Flink-ElasticSearch-Sink/以及同事的scala,在此说明一下java 有add和upsert操作scala只有upsert操作代码git连接https://github.com/fan-code/flinkSink2Es

2020-05-27 11:51:19 669

原创 NoClassDefFoundError: org/apache/flink/streaming/api/environment/StreamExecutionEnvironment 已解决

依赖中有配置<!--<scope>provided</scope>--> 去掉即可

2020-05-26 16:28:36 2531 1

原创 flume自定义拦截器:根据业务数据中的时间戳实现数据在hdfs中的正确分区

业务场景:埋点数据落hive表,且埋点数据中带有数据产生时的时间字段业务流程:kafka->flume->hdfs->hive问题:晚到的埋点数据会落到哪个分区中 9点产生的埋点数据 由于数据上报或者flume sink的延迟会落到9点的分区中么?答案是不会的flume抽取到的数据也成为event,event分为header和body,如果你flume sink...

2020-03-20 11:39:35 1103

原创 flume hdfs sink报错: java.lang.NoSuchFieldError: IGNORE_CLIENT_LOCALITY

集群环境:CDH 6.2.0Hadoop 3.0.0在使用flume hdfs sink时 报错,java.lang.NoSuchFieldError: IGNORE_CLIENT_LOCALITYflume sink在相应目录下创建了.tmp文件,但无法写入数据2020-03-16 18:32:44,757 (SinkRunner-PollingRunner-Default...

2020-03-17 10:57:30 792

原创 sparkthrift服务隔段时间正常退出

CDH6.2集成sparkThrift服务 参考https://blog.csdn.net/qq_34864753/article/details/102729859公司网络组为了安全起见购买了 华为的防火墙,安装上后 启动的sparkThrift服务隔2小时10分钟后就会断开,而且是正常断开sparkThrift日志2020-01-17 13:25:25 INFO HiveS...

2020-01-18 10:16:26 741 2

原创 kafka集群监控(kafka_exporter&prometheus&Grafana)

为了更直观的展示kafka实时消息生产速率以及某一topic下group_id与当前kafka之间的消息积压情况,采用kafka_exporter,promehues,grafana将相关指标实时展示1. 下载 kafka_exporter(所在机器需与kafka集群网络相通)wgethttps://github.com/danielqsj/kafka_exporter/release...

2020-01-13 11:07:28 16149 12

原创 Superset 集成mysql数据库及报错 No module named 'MySQLdb'解决

superset安装请参考https://blog.csdn.net/qq_34864753/article/details/93517511这是superset添加数据源的界面点击Test Connection 报错No module named 'MySQLdb'"需要安装 mysqlclient ,过程不会是一帆风顺的,报错,最初是机器没开外网(公司安全管控比较严...

2019-12-20 14:54:27 1402 5

原创 kafka同一个topic和gruopid下的双flume客户端消费测试

业务场景:单个flume客户端无法消费某个数据量很大的topic,因此起两个flume去消费同一个topic数据流:kafka--->flume---->oss(阿里云的分布式存储服务,可以是hdfs)01.conf 和 02.conf配置的topic和group.id以及数据存储路径都保持一致,不同的是文件前缀01.conf配置02.conf配置我这边在...

2019-12-19 18:11:37 510

原创 sentry权限查看

搭建的CDH集成了sentry,通过HUE来设置相关权限,具体角色有哪些权限呢?如何查看?1. 进入sentry所在数据库跟权限相关的就下两个表

2019-12-10 17:43:32 831

原创 kerberos环境下的presto集群安装

1. 没有kerberos环境的presto集群安装请参考https://blog.csdn.net/Alongpo/article/details/89499400kerberos安装需更改 /catalog 下的hive.properties文件,其余参考1 即可

2019-12-03 17:57:17 214

原创 python3解决No module named '_bz2'和libbz2.so.1.0: cannot open shared object file问题

解决No module named '_bz2将 bz2.cpython-36m-x86_64-linux-gnu.so放在/usr/local/python3.6/lib/python3.6/lib-dynload目录下https://pan.baidu.com/s/1ChN7mFxIyWwXn7lVtoeVKw如果失效,去https://pan.baidu.com/s/1fHh...

2019-11-20 18:11:26 2839

原创 apache druid压力测试(工具:jmeter)

1. 官网下载http://jmeter.apache.org/2. 解压进入bin目录,双击ApacheJMeter.jar 运行程序3.添加以下服务线程组:这里你可以设置线程数和循环次数等http请求:http信息头管理器汇总报告/汇总图/查看结果树都是查看请求状态和请求结果的,重要的是汇总图,可以看到请求的响应时间,下面的图是测试800个并发结...

2019-11-19 14:37:34 967

原创 Apache Druid删除深度存储(Deep Storage)中的数据

参考https://blog.csdn.net/Alongpo/article/details/89604655Druid安装及demo测试请参考https://blog.csdn.net/qq_34864753/article/details/100080664假如我们只想保留Druid中某张表7天的数据,为了减少磁盘开销,删除前7天的数据1. 设置表的保留规则参考...

2019-11-01 17:17:00 1543

原创 CDH启用Kerberos导致hdfs,yarn等页面无法访问解决

CDH启用Kerberos,导致namenode和resourcemanager等页面无法访问,访问页面的时候报错Problem accessing /cluster. Reason解决方案: 将hdfs/yarn的配置中这个勾选去掉,重启服务即可...

2019-10-31 13:39:17 2287

原创 CDH 6成功启动spark-thrift服务(CDH 6.2.0)

因为CDH自身集成的spark不包含thrift服务,因公司业务需求,需在集成了Kerberos&LDAP的CDH集群中启用spark-thrift服务吐槽一句,百度出来的都是没用的,还是翻墙找到解决方案的1. 下载spark 安装包,并解压wget https://www-eu.apache.org/dist/spark/spark-2.4.4/spark-2.4.4...

2019-10-24 19:24:45 2999 23

原创 CDH以及原生态HUE下载条数限制修改(默认10w行)

1.CDH版需要到CDH的Cloudera Manager中进入HUE配置hue_safety_valve.ini 的 Hue 服务高级配置代码段(安全阀)配置项然后加入[beeswax]download_row_limit=500就可以限制下载条数到500条了,设置成-1则不对下载条数限制。回到CDH界面会提示过期配置需要重启,然后重启即可生效2. 原生态版本然后重...

2019-10-10 11:38:40 869

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除