自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(307)
  • 资源 (8)
  • 问答 (1)
  • 收藏
  • 关注

转载 详解 Flink 实时应用的确定性

确定性(Determinism)是计算机科学中十分重要的特性,确定性的算法保证对于给定相同的输入总是产生相同的输出。在分布式实时计算领域,确定性是业界一直难以解决的课题,由此导致用离线计算...

2021-02-06 08:30:00 177

原创 Flink-Cep实现规则动态更新

规则引擎通常对我们的理解就是用来做模式匹配的,在数据流里面检测满足规则要求的数据。有人会问为什么需要规则动态变更呢?直接修改了规则把服务重启一下不就可以了吗,这个当然是不行的,规则引擎里...

2020-11-30 19:20:06 3398 8

原创 一个Flink-Cep使用案例

本篇主要演练使用Flink-Cep+Groovy+Aviator 来实现一个物联网监控规则中的一个场景案例,后续将会介绍如何实现规则动态变更。技术背景简介Flink-Cep 是flink...

2020-11-03 21:21:18 2094 5

原创 Flink 实现Locality 模式调度

背景在计算与存储一体化的情况,spark任务在调度task时会优先将其调度在数据所在的节点上或者相同的rack上,这样可以减少数据在不同节点或者不同rack上移动所带来的性能消耗;目前在...

2020-09-27 21:45:08 463

转载 高能揭秘:互联网大厂的数据治理与资产管理实战 | DAMS 2020

5年前,大数据浪潮的来袭唤起了国内企业对数据作为核心资产的新认知,为了推动国内数据管理加速发展,DAMS中国数据智能管理峰会携手产学研各界权威力量开启了对企业数字化转型的探索与助力。5年...

2020-09-15 10:14:39 1176

原创 Clickhouse LB实践

目前Clickhouse在线上使用,不管是多分片还是多副本都是以集群方式部署,那么对外暴露多台Clickhouse服务,通常会通过LB方式使每台服务器能够均匀的接受到客户端的请求,另外一...

2020-08-25 20:54:47 2242

原创 关于EventTime所带来的问题

在Flink中,EventTime即事件时间,能够反映事件在某个时间点发生的真实情况,即使在任务重跑情况也能够被还原,计算某一段时间内的数据,那么只需要将EventTime范围的数据聚合...

2020-07-17 23:53:07 788

原创 Flink1.10任务提交流程分析(二)

在Flink1.10任务提交流程分析(一)中分析了从flink run开始到任务提交到集群前的流程分析,对于不同的提交模式Flink中使用不同的PipelineExecutor,本篇基于...

2020-06-08 23:29:56 859

原创 Flink1.10任务提交流程分析(一)

Flink任务常见的提交方式通过flink run命令方式提交,如果我们想自己通过API方式实现任务提交,那么就需要了解flink run执行过程,本篇主要透过源码分析其提交流程。(注:...

2020-06-05 22:56:37 1630

原创 Flink1.10基于工厂模式的任务提交与SPI机制

Flink任务执行模式包含了yarn-session、standalone、per-job、local, 在1.10中又增加k8s的执行模式,那么在任务提交过程中如何根据不同的执行模式进...

2020-06-04 00:19:19 1637

原创 并行度改变引发的血案

收到电话告警kafka消费堆积,就去查看任务健康状态,查找了以下几点:1.查看背压情况,web页面绿码通行2.查看任务GC情况,正常3.查看数据写入情况,外部数据库mysql指标正常4....

2020-05-02 01:03:02 311

原创 基于Flink的日志采集

目前基于ELK架构的日志系统,通过filebeat收集上来的日志都会发送到同一个kafka topic中,然后再由Logstash消费处理写入Elasticsearch中,这种方式导致该...

2020-04-29 23:01:24 3714 1

原创 StreamingFileSink压缩与合并小文件

Flink目前对于外部Exactly-Once写支持提供了两种的sink,一个是Kafka-Sink,另一个是Hdfs-Sink,这两种sink实现的Exactly-Once都是基于Fl...

2020-03-07 18:53:49 3830 4

原创 Flink: 两个递归彻底搞懂operator chain

operator chain是指将满足一定条件的operator 链在一起,放在同一个task里面执行,是Flink任务优化的一种方式,在同一个task里面的operator的数据传输变...

2020-02-29 21:45:04 2937

原创 Flink中-C参数与DistributedCache使用

点击箭头处“蓝色字”,关注我们哦!!-C 参数flink命令下有这样的一个参数选项-C或者--classpath,含义解释:Adds a URL to each user code cl...

2020-02-23 18:51:34 1501

原创 使用Calcite解析Sql做维表关联(二)

点击箭头处“蓝色字”,关注我们哦!!继上一篇中使用Calcite解析Sql做维表关联(一) 介绍了建表语句解析方式以及使用calcite解析解析流表join维表方法,这一篇将会介绍如何使...

2020-02-15 20:16:04 1387

原创 使用Calcite解析Sql做维表关联(一)

点击箭头处“蓝色字”,关注我们哦!!维表关联是离线计算或者实时计算里面常见的一种处理逻辑,常常用于字段补齐、规则过滤等,一般情况下维表数据放在MySql等数据库里面,对于离线计算直接通过...

2020-02-09 20:11:13 2132

原创 使用Calcite做Sql语法解析

点击箭头处“蓝色字”,关注我们哦!!Flink SQL中使用Calcite作为sql语法解析、校验、优化工具,本篇是实操篇,介绍一下calcite做sql语法解析使用方式。sql经过ca...

2020-02-05 21:24:01 10110 3

原创 Flink中Watermark定时生成源码分析

点击箭头处“蓝色字”,关注我们哦!!watermark的生成策略有两种:一种是周期性生成,另外一种是根据特定标记生成。在实际使用中大多数情况下会选择周期性生成方式也就是AssignerW...

2020-02-03 17:13:45 1476

原创 Checkpoint对齐机制源码分析

点击箭头处“蓝色字”,关注我们哦!!checkpoint是保证Flink状态容错的重要机制,通过checkpoint可以实现不同的数据语义,也就是我们所说的Exactly-Once与At...

2020-01-27 22:23:07 631

原创 Flink 中的一把锁

点击箭头处“蓝色字”,关注我们哦!!那把锁锁用于多线程安全场景下,在Flink中存在一把锁,被用于数据处理线程、定时器调用线程、checkpoint线程。在StreamTask中定义了一...

2020-01-26 13:45:56 2086

转载 给大家拜年了!!!

2020年,只争朝夕、不负韶华,祝您新春愉快、身体健康 ! ...

2020-01-21 18:31:29 473 1

原创 Flink中流动的四种元素

点击箭头处“蓝色字”,关注我们哦!!在Flink DataStream中流动着不同的元素,统称为StreamElement,StreamElement可以是StreamRecord、Wa...

2020-01-18 21:41:51 545

原创 9102年围绕Flink做的一些事

点击箭头处“蓝色字”,关注我们哦!!2019年的主要工作就是围绕Flink来做一些事情,分为以下几个方面:一、实时流平台二、实时监控三、实时数仓四、实时业...

2020-01-14 23:41:09 321

原创 Flink去重第四弹:bitmap精确去重

点击箭头处“蓝色字”,关注我们哦!!往期精彩回顾Flink去重第一弹:MapState去重Flink去重第二弹:SQL方式Flink去重第三弹:HyperLogLog去重关于hyperl...

2020-01-12 18:54:08 5023

原创 不得不掌握的三种BitMap

点击箭头处“蓝色字”,关注我们哦!!BitMapBitmap是大数据里面常见的数据结构,简单来说就是按位存储,为了解决在去重场景里面大数据量存储问题,目前在Druid/Spark等使...

2020-01-10 00:17:14 3870

原创 年关将至,送上一份Flink大礼包

点击箭头处“蓝色字”,关注我们哦!!从19年10月份开始决定写这些东西,不知不觉写了43篇文章,真的没想到自己能够坚持下来,每一篇文章都是从自己工作中总结出来的,每写一个系列都需要翻阅源...

2020-01-08 00:42:14 205

转载 关于HyperLogLog去重优化

点击箭头处“蓝色字”,关注我们哦!!推荐阅读1Flink去重第一弹: MapState去重 2Flink去重第二弹:SQL方式 3Flink去重第三弹:HyperLogLog去重在Hy...

2020-01-07 00:48:06 845

转载 Flink基于zookeeper的高可用实现源码分析

点击箭头处“蓝色字”,关注我们哦!!Flink中JobMaster、ResourceManager、Dispatcher、WebMonitorEndpoint提供了基于zookeeper...

2020-01-06 13:59:08 1138

原创 Flink去重第三弹:HyperLogLog去重

点击箭头处“蓝色字”,关注我们哦!!HyperLogLog算法 也就是基数估计统计算法,预估一个集合中不同数据的个数,也就是我们常说的去重统计,在redis中也存在hyperloglog...

2020-01-04 21:02:24 841

原创 Flink心跳机制分析

点击箭头处“蓝色字”,关注我们哦!!心跳机制通过定期向对方发送请求方式用于检测客户端或者服务端是否存活的一种机制,常见的心跳检测有两种:socket 套接字SO_KEEPALIVE本身带...

2020-01-01 20:18:58 1050

原创 flink维表关联系列之Redis维表关联:实时查询

点击上方蓝字关注~ 在做维表关联如果要求低延时,即维表数据的变更能够被立刻感知到,所以就要求在查询时没有缓存策略,直接查询数据库维表信息。本篇以实时查询redis为例,要求r...

2019-12-29 19:34:11 3202 2

原创 Flink去重第二弹:SQL方式

点击上方蓝字关注~在Flink去重第一弹:MapState去重中介绍了使用编码方式完成去重,但是这种方式开发周期比较长,我们可能需要针对不同的业务逻辑实现不同的编码,对于业务开发来说也需...

2019-12-27 01:03:11 2134 1

原创 Flink去重第一弹:MapState去重

点击上方蓝字关注~ 去重计算应该是数据分析业务里面常见的指标计算,例如网站一天的访问用户数、广告的点击用户数等等,离线计算是一个全量、一次性计算的过程通常可以通过distin...

2019-12-22 17:36:06 5607 2

原创 StreamTask源码分析

点击上方蓝字关注~ 在前一篇StreamOperator源码简析中提到StreamOperator上层是由StreamTask调用,也就是说StreamTask会在发生不同阶...

2019-12-15 22:32:03 399

原创 自定义StreamOperator

点击上方蓝字关注~ 在上一篇StreamOperator源码简析从源码角度分析了StreamOperator以及其实现类,此篇幅主要分析一下如何自定义一个StreamOper...

2019-12-13 19:24:17 399

原创 StreamOperator源码简析

点击上方蓝字关注~ StreamOperator是任务执行过程中实际处理类,上层由StreamTask调用,下层调用UserFunction,列举一些常见的StreamOpe...

2019-12-04 01:56:59 380

原创 Flink SQL自定义聚合函数

点击上方蓝字关注~本篇幅介绍Flink Table/SQL中如何自定义一个聚合函数,介绍其基本用法、撤回定义以及与源码结合分析每个方法的调用位置。基本使用Flink Ta...

2019-11-24 23:19:32 3598

原创 Flink SQL中可撤回机制解密

点击上方蓝字关注~ 场景案例先从一个实际业务场景理解Flink SQL中的撤回机制:设备状态上线/下线数量统计,上游采集设备状态发送到Kafka中,最开始是一个上线状态,此时统计到上线数量+1,过了一段时间该设备下线了,收到的下线的状态,那么此时应该是上线数量-1,下线数量+1,现在需要实现这样一个需求,看一下在Flink SQL里面如何实现val env=StreamExecutio...

2019-11-23 00:30:59 1579

原创 Flink per-Job模式InfluxdbReporter上报JobName

点击上方蓝字关注~ 最近将Flink集群从1.6升级到1.8,主要是为了使用1.8的两个特性:一个是universal kafka ,另外一个是rocksdb ...

2019-11-20 08:02:28 1262 3

Hibernate详解

该文档详细讲解了Hibernate的几个核心技术:Hibernate的配置文件、缓存机制、查询策略、事务管理、HQL和QBC、一对多、一对一、多对多映射关系、继承映射等,并且还有配有实例。

2014-09-12

Struts2.2.3

struts2参考手册,其中包含xwork框架部分的API

2014-09-08

Jquery1.10.3

jquery最新版1.10.3中文参考手册,详细介绍了Ajax、CSS、事件、属性、选择器等用法。

2014-09-08

tika.jar包

可直接通过java -jar tika.jar运行该jar包 查看我们解析得到文本的结果

2014-07-26

Apache tomcat

此Apache-tomcat是安装类型,在安装时选择JDK,不用去配置文件中添加代码

2014-07-23

solr与tomcat整合

该文档详细讲解了solr如何整合到tomcat中,并且还有附有图片说明

2014-07-23

nutch工具包

Apache nutch 1.5 src的包

2014-07-13

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除