- 博客(65)
- 收藏
- 关注
原创 致大数据开发者的一句忠言
时间:2022年4月20号背景:在公司一年半后选择离职,三月份找了将近一个月的工作,最终算是拿到满意的offer找工作的感受:四年工作经验,三份工作经历,面的是大数据开发岗,因为过往工作内容比较繁琐,集群运维,Flink实时,数据治理,数仓报表都做过,就是因为什么都做过,貌似简历里没办法体现某一个方向的深度,但找工作,还是要着重某个方向,过往的Java工作也少,编程功底一般,终结就是:亮点没有,缺点很明显。这次找工作让我有一种快要失业的感觉,多少有点恐慌。对大数据行业的浅解:大数据分数仓(离线,
2022-04-20 15:42:22 2415
原创 Doris或StarRocks Jmeter压测
测试介绍:1. 配置化sql where条件 (5个线程,每个线程执行不同的where条件,通过csv文件实现)2. 实现固定并发数执行几分钟(如果只是固定并发数执行一次,压测是不合格的,QPS是达不到你设置的并发数)整个测试涉及到的大概这么多1. Jmeter JDBC连接Doris或StarRocks兼容mysql协议,通过jdbc方式连接说是要加个mysql-connect的jar包2. csv配置化比如我3个线程 执行3...
2022-05-17 11:29:54 3305
原创 Flink面试常见的25个问题(无答案)
flink和spark streaming的优缺比较 Flink on Yarn任务提交流程 Flink Sql的执行过程 Flink所使用的版本 Flink 内存模型 Flink Watermark机制 Flink CheckPoint机制?kafka exactly-once的两阶段提? Flink 状态存储backend类型?RocksDBStateBendback的使用场景,优缺点?Flink1.14版本状态存储类型的变化 ? FlinkSql 无界流聚合中mini-batch的使.
2022-03-30 14:43:30 2584
原创 python 发送邮件/正文插入表格
##将写入本地的excel文件发送至目标邮箱,并读取前7行7列做展示#邮件发送方,收件方,数据为数据[[1,2],[1,3]]这种数组格式的,邮件主题,发送方密码 # sendAddr = '' # recipientAddrs = '' # email_subject = '' # password = ''def send_mail_excel(sendAddr,recipientAddrs,alarm_nodes,email_subject,password):.
2021-10-14 17:48:01 7865 5
原创 flinksql 窗口提前触发
场景:一天的窗口,想每分钟或其他时间点触发一次insert into sliding_window_local_pay_dayselect userid, TUMBLE_START (ptime, INTERVAL '1' DAY) as window_start, TUMBLE_END (ptime, INTERVAL '1' DAY) as window_end, COUNT (1) as pay_numfrom flink_kafka_join_paygroup by TU
2021-09-22 17:26:46 1515
原创 Flink checkpoint源码理解
参考:https://blog.jrwang.me/2019/flink-source-code-checkpoint/#checkpoint-%E7%9A%84%E5%8F%91%E8%B5%B7%E6%B5%81%E7%A8%8Bhttps://cloud.tencent.com/developer/article/1593969https://blog.csdn.net/zc19921215/article/details/108171455Flink checkpoint主要包括 bar
2021-08-26 19:18:37 697 1
原创 Flink Interval Join源码理解
参考:https://www.jianshu.com/p/179beca9f307interval join :两条数据流+between边界+过期数据清理demo:下面看下源码实现intervalJoin 属于 KeyedStream,源码部分也在KeyedStream中KeyedStream的intervalJoin创建并返回IntervalJoin IntervalJoin提供了between操作,用于设置interval的lowerBound及upperBound...
2021-08-11 20:08:45 781
原创 前端实现表格中的颜色变化以及不同点击效果
目标:1. 实现根据不同status显示不同颜色 2. 实现表格中对应链接根据不同状态不同点击效果效果: 不同任务状态不同颜色显示,不同重启次数不同颜色显示,WebUi 在RUNNING状态点击跳转到对应web,其他状态则点击提示 任务未运行,无法跳转实现:html <div class="card-body"> <div class="table-responsive" style="">...
2021-07-13 10:24:13 1470 3
原创 前端实现表格分页,排序,全局模糊搜索
html<table id="odpsColumnsDetails" class="table table-bordered "> </table>js部分重点在 DataTable,这个是jquery.dataTables.min.js 中的,所以要引入这个js可以参考:https://datatables.net/examples/data_sources/js_array.html 官方最靠谱$('#odpsColumnsDetails').Dat..
2021-07-08 10:55:58 1072
原创 FlinkSql多表(三表) join/interval join
直接上sql和数据流图一: join(regular join)insert into `flinkThreeWaterT`select ck.userid, ck.click, py.payway, pc.price, ck.ctime, py.ptime, pc.etimefrom ( select userid, click, TO_TIMESTAMP (ctime) as ctime from flink_kafka_join_click)
2021-06-09 17:01:19 4118 2
原创 Neo4j基础指南(安装,节点和关系数据导入,数据查询)
1. linux 部署https://blog.csdn.net/u013946356/article/details/817362322. load csv数据(节点Node以及关系Relation)比如:node csv数据样例:nodeId"1""2""3""4""5"数据导入: 在该输入框中输入以下命令(注意file的路径):auto USING PERIODIC COMMIT 1000 LOAD CSV WITH HEADERS FROM "file..
2021-05-13 17:45:12 705 1
原创 Flask学习最佳入门指南
博客不是自己的,不过是我找了好多天才发现的好博客刚入门的可以看:《Flask 入门教程》第 X 章:****见链接:https://www.zhihu.com/people/im-greyli
2021-03-12 10:09:27 329
原创 Flink Kafka两阶段提交理解
1. 参考https://zhuanlan.zhihu.com/p/1113042812. Two-Phase Commit(2PC)分为 提交请求(投票)和提交(执行)两个阶段3.在Flink KafkaProducer中继承了TwoPhaseCommitSinkFunction来实现两阶段提交的功能(要弄清楚两阶段分别干了什么事) 该类下 有四个子类 protected abstract TXN beginTransaction() throws Exceptio...
2021-02-20 19:01:53 1969 1
原创 Flink 滑动窗口理解&具体业务场景介绍
1. 窗口划分与数据清理 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); DataStreamSource<String> local
2020-12-22 17:59:50 3454 4
原创 Flink1.11 intervalJoin watermark生成,状态清理机制源码理解&Demo分析
参考博客https://cloud.tencent.com/developer/article/1738836数据类型为左流FlinkClick(userid=gk01, click=Pay, ctime=2020-12-14 09:55:00.000) ; 右流为FlinkPay(userid=gk01, payway=alipy, ptime=2020-12-14 09:58:00.000)join的这段代码如下 clickOut.keyBy(t->t.getUs...
2020-12-14 20:41:22 2477 3
原创 flink1.11 sql本地运行demo & 本地webUI可视解决
1. pom依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.11.0</flink.version> <avro.version>1.8.2</avro.version> <java.version
2020-11-28 18:13:31 1850 2
原创 Hive 统计连续次数
参考该博客 https://bbs.csdn.net/topics/392243867数据为:用户id#uid 登录日期#loaddateuid loaddate201 2017-01-06 00:00:00201 2017-01-05 00:00:00201 2017-01-04 00:00:00201 2017-01-01 00:00:00201 2017-01-02 00:00:00202 2017-01-03 00:00:00202 2017-01-05 00:00:...
2020-11-20 17:28:11 5336
原创 Flink1.11 多并行度watermark测试
source 单并行度参考https://blog.csdn.net/xu470438000/article/details/83271123结论:###窗口触发条件1、watermark时间 >= window_end_time2、在[window_start_time,window_end_time)中有数据存在###对于设置了allowedLateness(Time.seconds(N))的1. 第一次触发是在watermark >=window_end_time时.
2020-11-09 17:23:40 826 7
原创 Flink1.11 Jdcb方式写mysql测试用例
本demo是计算窗口内wordCount然后写入mysql//数据通过jdbc方式sink到mysql windowCounts.addSink(JdbcSink.sink("replace into flink_test(words,nums) values(?,?)", new JdbcStatementBuilder<Tuple2<String, Integer>>() { @Ove.
2020-11-06 11:14:29 1109
原创 spring cloud 整合mybatis plus(xml配置和注解使用小教程)
项目见githubhttps://github.com/fan-code/mybatis_plus.git该文章参考了https://www.jianshu.com/p/1986472195921. 项目整体层级2. 先建mysql表和导数CREATE TABLE user ( id BIGINT(20) NOT NULL COMMENT '主键ID', name VARCHAR(30) NULL DEFAULT NULL COMMENT '姓名', age...
2020-10-17 14:56:05 1169
原创 Apache superset直连hive如何配置yarn资源队列参数(已解决)
对于小公司来说,superset这款BI工具相当优秀,丰富的数据源,炫酷的dashboard能满足基本查询要求现在关注下查询hive,superset可以直接对接hive或者通过presto由于公司大数据集成设置有资源队列,即 mapred.job.queue.name,在直接对接hive的时,如果不配置此参数,任务无法提交到yarn上解析运行如何配置呢?环境:集成了ldap的hive,资源队列划分在这个URI里是配置不了资源队列的,资源队列配置配置如下"connect_.
2020-09-23 16:28:16 1119
原创 多线程之wait(),sleep(),notify(),notifyAll()
本文主要理解锁与这些方法的关系(参考了其他文章)1.wait()和sleep()的区别 1.1 wait()wait()使当前线程阻塞,前提是 必须先获得锁,一般配合synchronized 关键字使用,即一般在synchronized 同步代码块里使用 wait()、notify/notifyAll() 方法。 wait()方法则是指当前线程让自己暂时退让出同步资源锁,以便其他正在等待该资源的线程得到该资源进而运行,只有调用了notify()方法,之前调用wait()的线程才会解除wa..
2020-07-23 19:24:52 300
原创 flink cep对于超时时间处理patternTimeoutFunction
Flink Cep是对复杂时间处理的一种手段,通过规则进行匹配,比如有 A B A C B C D是个消息,我们想获取 B C这种事件的消息,就可以通过定义相关规则来进行业务处理,通常我们会对C消息到达的时间有要求,比如在3s之内,那么我们获得超出3s已经匹配到的消息呢?现在来讨论下Flink CEP对于超时时间的处理直接上demo(实现功能,匹配click后为buy事件的消息,事件限定为5s,同时获取超时时间外匹配的消息)git地址https://github.com/fan-code/fl.
2020-06-09 14:27:00 1900
原创 flink sink数据到elasticsearch(scala&java)
代码参考了 zhisheng的java http://www.54tianzhisheng.cn/2018/12/30/Flink-ElasticSearch-Sink/以及同事的scala,在此说明一下java 有add和upsert操作scala只有upsert操作代码git连接https://github.com/fan-code/flinkSink2Es
2020-05-27 11:51:19 855
原创 NoClassDefFoundError: org/apache/flink/streaming/api/environment/StreamExecutionEnvironment 已解决
依赖中有配置<!--<scope>provided</scope>--> 去掉即可
2020-05-26 16:28:36 3149 1
原创 flume自定义拦截器:根据业务数据中的时间戳实现数据在hdfs中的正确分区
业务场景:埋点数据落hive表,且埋点数据中带有数据产生时的时间字段业务流程:kafka->flume->hdfs->hive问题:晚到的埋点数据会落到哪个分区中 9点产生的埋点数据 由于数据上报或者flume sink的延迟会落到9点的分区中么?答案是不会的flume抽取到的数据也成为event,event分为header和body,如果你flume sink...
2020-03-20 11:39:35 1355
原创 flume hdfs sink报错: java.lang.NoSuchFieldError: IGNORE_CLIENT_LOCALITY
集群环境:CDH 6.2.0Hadoop 3.0.0在使用flume hdfs sink时 报错,java.lang.NoSuchFieldError: IGNORE_CLIENT_LOCALITYflume sink在相应目录下创建了.tmp文件,但无法写入数据2020-03-16 18:32:44,757 (SinkRunner-PollingRunner-Default...
2020-03-17 10:57:30 1093
原创 sparkthrift服务隔段时间正常退出
CDH6.2集成sparkThrift服务 参考https://blog.csdn.net/qq_34864753/article/details/102729859公司网络组为了安全起见购买了 华为的防火墙,安装上后 启动的sparkThrift服务隔2小时10分钟后就会断开,而且是正常断开sparkThrift日志2020-01-17 13:25:25 INFO HiveS...
2020-01-18 10:16:26 1147 2
原创 kafka集群监控(kafka_exporter&prometheus&Grafana)
为了更直观的展示kafka实时消息生产速率以及某一topic下group_id与当前kafka之间的消息积压情况,采用kafka_exporter,promehues,grafana将相关指标实时展示1. 下载 kafka_exporter(所在机器需与kafka集群网络相通)wgethttps://github.com/danielqsj/kafka_exporter/release...
2020-01-13 11:07:28 18732 12
原创 Superset 集成mysql数据库及报错 No module named 'MySQLdb'解决
superset安装请参考https://blog.csdn.net/qq_34864753/article/details/93517511这是superset添加数据源的界面点击Test Connection 报错No module named 'MySQLdb'"需要安装 mysqlclient ,过程不会是一帆风顺的,报错,最初是机器没开外网(公司安全管控比较严...
2019-12-20 14:54:27 2141 5
原创 kafka同一个topic和gruopid下的双flume客户端消费测试
业务场景:单个flume客户端无法消费某个数据量很大的topic,因此起两个flume去消费同一个topic数据流:kafka--->flume---->oss(阿里云的分布式存储服务,可以是hdfs)01.conf 和 02.conf配置的topic和group.id以及数据存储路径都保持一致,不同的是文件前缀01.conf配置02.conf配置我这边在...
2019-12-19 18:11:37 706
原创 sentry权限查看
搭建的CDH集成了sentry,通过HUE来设置相关权限,具体角色有哪些权限呢?如何查看?1. 进入sentry所在数据库跟权限相关的就下两个表
2019-12-10 17:43:32 1098
原创 kerberos环境下的presto集群安装
1. 没有kerberos环境的presto集群安装请参考https://blog.csdn.net/Alongpo/article/details/89499400kerberos安装需更改 /catalog 下的hive.properties文件,其余参考1 即可
2019-12-03 17:57:17 301
原创 python3解决No module named '_bz2'和libbz2.so.1.0: cannot open shared object file问题
解决No module named '_bz2将 bz2.cpython-36m-x86_64-linux-gnu.so放在/usr/local/python3.6/lib/python3.6/lib-dynload目录下https://pan.baidu.com/s/1ChN7mFxIyWwXn7lVtoeVKw如果失效,去https://pan.baidu.com/s/1fHh...
2019-11-20 18:11:26 4006
原创 apache druid压力测试(工具:jmeter)
1. 官网下载http://jmeter.apache.org/2. 解压进入bin目录,双击ApacheJMeter.jar 运行程序3.添加以下服务线程组:这里你可以设置线程数和循环次数等http请求:http信息头管理器汇总报告/汇总图/查看结果树都是查看请求状态和请求结果的,重要的是汇总图,可以看到请求的响应时间,下面的图是测试800个并发结...
2019-11-19 14:37:34 1234
原创 Apache Druid删除深度存储(Deep Storage)中的数据
参考https://blog.csdn.net/Alongpo/article/details/89604655Druid安装及demo测试请参考https://blog.csdn.net/qq_34864753/article/details/100080664假如我们只想保留Druid中某张表7天的数据,为了减少磁盘开销,删除前7天的数据1. 设置表的保留规则参考...
2019-11-01 17:17:00 1879
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人