2021年08月_王知无(import_bigdata)

转载跨越速运 x DorisDB：统一查询引擎，强悍性能带来极速体验

跨越速运集团有限公司创建于2007年，目前服务网点超过3000家，覆盖城市500余个，是中国物流服务行业独角兽企业。跨越集团大数据中心负责全集团所有数据平台组件的建设和维护，支撑20余条核...

2021-08-31 08:00:00 323

转载 Yarn 源码 | 分布式资源调度引擎 Yarn 内核源码剖析

曾有人调侃：HBase 没有资源什么事情也做不了，Spark 占用了资源却没有事情可做？那 YARN了解一下？01YARN！伴随着Hadoop生态的发展，不断涌现了多种多样的技术组件 H...

2021-08-30 08:30:00 533

原创【硬刚大数据】我们在学习Flink的时候，到底在学习什么？

⭐⭐欢迎关注博客主页：https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ，欢迎留言交流！⭐⭐本文由【王知无】原创，首发于 CSDN博客！⭐⭐本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的面试部分补充。这是一篇指南和大纲性质的文章。Flink经过2年左右的官方和社区的大规模推广，现在国内的一众大小企业基本都在使用。后台很多小伙伴都在问Fli.

2021-08-29 14:11:35 494

原创【硬刚大数据】我们在学习Spark的时候，到底在学习什么？

欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于 CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的面试部分补充。很多小伙伴在群里或者私信留言问我关于Spark的学习路径问题。Spark发展至今，应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成..

2021-08-29 14:03:47 422

原创【硬刚大数据】企业级大数据平台建设参考 | 淘宝&滴滴&美团&360&快手&京东

欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于 CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的面试部分补充。本文结合小编自己的经验并且参考了淘宝&滴滴&美团&360&快手等各个大厂大数据平台建设的思路。在尊重事实的基础上重新组织了语言和内容，旨在给读者揭...

2021-08-29 13:58:47 668

原创【硬刚大数据】Flink在实时在实时计算平台和实时数仓中的企业级应用小结

欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于 CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的面试部分补充。大数据领域自 2010 年开始，以 Hadoop、Hive 为代表的离线计算开始进入各大公司的视野。大数据领域开始了如火如荼的发展。我个人在学校期间就开始关注大数据领域的技术迭代...

2021-08-29 13:48:53 1244

原创从需求场景下出发实操Clickhouse

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》背景本着以实时数仓为目标调研了几款OLAP引擎，像Clickhouse、Kylin、Druid等，在粗略了解其架构后，并且在接受各个大厂Clickhouse实践、高性能测试报告、最近业界发展势头凶猛的熏陶与PUA情况下，不得已选择了Clickhouse，当然自己也做过一些测试，本篇将介绍click

2021-08-29 11:54:55 343

原创 Clickhouse LB实践

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》目前Clickhouse在线上使用，不管是多分片还是多副本都是以集群方式部署，那么对外暴露多台Clickhouse服务，通常会通过LB方式使每台服务器能够均匀的接受到客户端的请求，另外一点就是在其中一台服务发生故障，仍然能通过故障转移方式正常对外提供服务。接下来会介绍关于Clickhouse通常使用的

2021-08-29 11:54:23 345

原创 Flink per-Job模式InfluxdbReporter上报JobName

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》最近将Flink集群从1.6升级到1.8，主要是为了使用1.8的两个特性：一个是universal kafka ，另外一个是rocksdb ttl, 然后注意到1.8 提供了Influxdb 的reporter, 在最开始1.6使用的rest api方式主动请求对应的metric, 使用这种方式目前有

2021-08-29 11:53:07 532

原创记一次Flink写入Kafka坑点

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》最近做了一个将结果数据写入到Kafka的需求，sink部分代码如下：val kafkaProducer: FlinkKafkaProducer011[String] = new FlinkKafkaProducer011[String]( sinkTopic, new Strin

2021-08-29 11:52:32 734

原创自定义metric监控流入、输出量

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》flink任务本身提供了各种类型的指标监控，细化到了每一个Operator的流入/流出量、速率、Watermark值等，通常在实际应用中需要对接入数据做格式化例如转json，符合要求的数据会向下流动，不符合要求或者格式化异常称为脏数据会被过滤掉，现在目标实现一个通用化方式能够对正常数据与脏数据进行指标

2021-08-29 11:51:54 451

原创任务日志收集

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》flink任务日志指的是任务系统日志与用户代码里面log方式打印的日志，这些日志信息都可以在flink web页面上看到，目前任务的部署模式都是on yarn, 那么在yarn页面也可以看到，这些日志信息在开发环境或者测试环境量都是很小的，可以很方便的查看，但是在产生环境上，任务是7*24不间断的运行

2021-08-29 11:51:20 408

原创 Flink并行度改变引发的血案

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》收到电话告警kafka消费堆积，就去查看任务健康状态，查找了以下几点：1.查看背压情况，web页面绿码通行2.查看任务GC情况，正常3.查看数据写入情况，外部数据库mysql指标正常4.查看checkpoint情况，几十毫秒完成5.topic 生产消费速度，震惊~ 生产速度doub

2021-08-29 11:50:46 335

原创 StreamingFileSink压缩与合并小文件

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》Flink目前对于外部Exactly-Once写支持提供了两种的sink，一个是Kafka-Sink，另一个是Hdfs-Sink，这两种sink实现的Exactly-Once都是基于Flink checkpoint提供的hook来实现的两阶段提交模式来保证的，主要应用在实时数仓、topic拆分、基于小

2021-08-29 11:50:13 486

原创 Flink SQL 中TableFunction使用分析

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》本篇幅介绍Flink Table/SQL中如何自定义一个表函数(TableFunction)，介绍其基本用法以及与源码结合分析其调用流程。基本使用表函数TableFunction相对标量函数ScalarFunction一对一，它是一个一对多的情况，通常使用TableFunction来完成列转行

2021-08-29 11:49:36 470

原创 Flink SQL自定义聚合函数

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》本篇幅介绍Flink Table/SQL中如何自定义一个聚合函数，介绍其基本用法、撤回定义以及与源码结合分析每个方法的调用位置。基本使用Flink Table/SQL Api中自带了一些常见的聚合函数，例如sum、min、max等，但是在实际开发中需要自定义符合业务需求的聚合函数，先从一个实际

2021-08-29 11:49:06 753

原创自定义UpsertStreamTableSink

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》在Flink实战系列之自定义RetractStreamTableSink中介绍了如何编写自定义RetractStreamTableSink，Flink 中提供了另外一种可Redo模式的UpsertStreamTableSink，与RetractStreamTableSink不同的是：1.在Upse

2021-08-29 11:47:44 356

原创自定义RetractStreamTableSink

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》Flink Table/SQL 中对于流表TableSink的定义有三类：AppendStreamTable、RetractStreamTableSink 、UpsertStreamTableSink ，这三类主要区别对应不同的流类型，在我看来可以归纳为两种模式：1.Insert模式，对应Appe

2021-08-29 11:47:10 362

原创编码方式实现Split Distinct Aggregation功能

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》前言去重指标作为业务分析里面的一个重要指标，不管是在OLAP存储引擎还是计算引擎都对其实现做了大量工作，在面对不同的数据量、指标精确性要求，都有不同的实现方式，但是总体都逃脱不了硬算、两阶段方式、bitmap、hll等这些实现。本文将分析Split Distinct Aggregation实现原理

2021-08-29 11:44:48 249

原创关于bitmap的使用总结

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》BitMapBitmap 是大数据里面常见的数据结构，简单来说就是按位存储，为了解决在去重场景里面大数据量存储问题，目前在Druid/Spark等使用。在Java中一个字节占用8位，那么就代表可以存储8个数字，存储结构如下：现在需要存储1与5这两个数字：只需要将对应的bit的下标置

2021-08-29 11:44:18 1118

原创关于hyperloglog去重优化

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》在HyperLogLog去重实现中，如果要求误差在0.001以内，那么就需要1048576个int, 也就是会消耗4M的存储空间，但是在实际使用中有很多的维度的统计是达不到这个数据量，那么可以在这里做一个优化，优化方式是：初始HyperLogLog内部使用存储是一个set集合，当set大小达到了指定大

2021-08-29 11:43:45 271

转载 Flink去重第三弹：HyperLogLog去重

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》HyperLogLog算法也就是基数估计统计算法，预估一个集合中不同数据的个数，也就是我们常说的去重统计，在redis中也存在hyperloglog 类型的结构，能够使用12k的内存，允许误差在0.81%的情况下统计2^64个数据，在这种大数据量情况下能够减少存储空间的消耗，但是前提是允许存在一定的

2021-08-29 11:43:12 473

转载 Flink去重第二弹：SQL方式

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》本篇介绍如何使用sql方式完成去重。为了与离线分析保持一致的分析语义，Flink SQL 中提供了distinct去重方式，使用方式：SELECT DISTINCT devId FROM pv表示对设备ID进行去重，得到一个明细结果，那么我们在使用distinct来统计去重结果通常有两

2021-08-29 11:42:01 823

转载 Flink去重第一弹:MapState去重

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》去重计算应该是数据分析业务里面常见的指标计算，例如网站一天的访问用户数、广告的点击用户数等等，离线计算是一个全量、一次性计算的过程通常可以通过distinct的方式得到去重结果，而实时计算是一种增量、长期计算过程，我们在面对不同的场景，例如数据量的大小、计算结果精准度要求等可以使用不同的方案。此篇介绍

2021-08-29 11:41:18 721

原创 Flink-Cep实现规则动态更新

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》规则引擎通常对我们的理解就是用来做模式匹配的，在数据流里面检测满足规则要求的数据。有人会问为什么需要规则动态变更呢？直接修改了规则把服务重启一下不就可以了吗，这个当然是不行的，规则引擎里面通常会维护很多不同的规则，例如在监控告警的场景下，如果每个人修改一下自己的监控阈值，就重启一下服务，必然会影响其他

2021-08-29 11:40:10 422

原创一个Flink-Cep使用案例

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》本篇主要演练使用Flink-Cep+Groovy+Aviator 来实现一个物联网监控规则中的一个场景案例，后续将会介绍如何实现规则动态变更。技术背景简介Flink-Cep 是flink中的高级library，用于进行复杂事件处理，例如某一类事件连续出现三次就触发告警，可以类比Siddhi、E

2021-08-29 11:39:36 1092

原创窗口TopN分析与实现

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》TopN 的需求场景不管是在离线计算还是实时计算都是比较常见的，例如电商中计算热门销售商品、广告计算中点击数前N的广告、搜索中计算搜索次数前N的搜索词。topN又分为全局topN、分组topN, 比喻说热门销售商品可以直接按照各个商品的销售总额排序，也可以先按照地域分组然后对各个地域下各个商品的销售总

2021-08-29 11:39:00 338

原创 Flink join终结者：SQL Join

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》SQL是开发人员与数据分析师必备的技能，Flink也提供了Sql方式编写任务，能够很大程度降低开发运维成本，这篇是flink join的终极篇SQL Join, 首先介绍sql join使用方式、然后介绍global join带来的状态存储成本及解决方式、最后从源码角度分析sql join实现。一

2021-08-29 11:36:55 329

转载 Flink intervalJoin 使用与原理分析

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》在上一篇的分析【Flink DataStream中CoGroup实现原理与三种 join 实现】中基于DataStream的join只能实现在同一个窗口的两个数据流之间进行join, 但是在实际中常常是会存在数据乱序或者延时的情况，导致两个流的数据进度不一致，就会出现数据跨窗口的情况，那么数据就无

2021-08-29 11:34:39 989

转载 Flink DataStream中CoGroup实现原理与三种 join 实现

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》CoGroupCoGroup 表示联合分组，将两个不同的DataStream联合起来，在相同的窗口内按照相同的key分组处理，先通过一个demo了解其使用方式：case class Order(id:String, gdsId:String, amount:Double)case clas

2021-08-29 11:33:48 737

转载自定义异步查询

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》在异步IO查询外部存储时，对于提供异步查询的客户端来说可以直接使用，但是对于没有提供异步查询的客户端应该怎么做呢？我们可以将查询请求丢到一个线程池中，将这个线程池看做是一个异步的客户端来帮助我们完成查询请求。通过线程池方式来帮助我们完成异步请求关键在于线程池的core大小如何设置，如果设置过大，会

2021-08-29 11:33:10 213

原创自定义异步查询

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》在异步IO查询外部存储时，对于提供异步查询的客户端来说可以直接使用，但是对于没有提供异步查询的客户端应该怎么做呢？我们可以将查询请求丢到一个线程池中，将这个线程池看做是一个异步的客户端来帮助我们完成查询请求。通过线程池方式来帮助我们完成异步请求关键在于线程池的core大小如何设置，如果设置过大，会

2021-08-29 11:32:36 219

原创 Kafka维表关联：广播方式

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》Flink中广播状态假设存在这样一种场景，一个是用户行为数据，一个是规则数据，要求通过规则去匹配用户行为找到符合规则的用户，并且规则是可以实时变更的，在用户行为匹配中也能根据规则的实时变更作出相应的调整。这个时候就可以使用广播状态，将用户行为数据看做是一个流userActionStream，规

2021-08-29 11:31:59 451

原创 Redis维表关联：实时查询

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》在做维表关联如果要求低延时，即维表数据的变更能够被立刻感知到，所以就要求在查询时没有缓存策略，直接查询数据库维表信息。本篇以实时查询redis为例，要求redis 客户端支持异步查询，可以使用io.lettuce包，支持redis不同模式：单点模式、sentinel模式、集群模式，需要在pom中引

2021-08-29 11:31:15 753

原创 Hbase维表关联：LRU策略

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》LRULRU(Least Recently Used)，最近最少使用缓存淘汰算法，认为最近访问过的数据在将来被访问的概率也比较大，当内存达到上限去淘汰那些最近访问较少的数据。在Flink中做维表关联时，如果维表的数据比较大，无法一次性全部加载到内存中，而在业务上也允许一定数据的延时，那么就可以

2021-08-29 11:30:42 371

原创 Mysql维表关联：全量加载

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》在维表关联中定时全量加载是针对维表数据量较少并且业务对维表数据变化的敏感程度较低的情况下可采取的一种策略，对于这种方案使用有几点需要注意：1.全量加载有可能会比较耗时，所以必须是一个异步加载过程2.内存维表数据需要被流表数据关联读取、也需要被定时重新加载，这两个过程是不同线程执行，为了尽可能保证

2021-08-29 11:30:05 334

原创维表服务与Flink异步IO

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》一、维表服务维度或者是维表概念熟知应该从数据仓库维度建模开始了解的，区别于事实表业务真实发生的数据，通常用来表示业务属性，比喻订单业务中，商品属性、商家属性都可以称之为维度表。在flink 流处理实时分析中或者实时数仓中，同样需要使用维表来完成一些数据过滤或者字段补齐操作，但是我们所需要的维度数据

2021-08-29 11:29:29 335

原创窗口实用触发器:ContinuousEventTimeTrigger

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》短窗口的计算由于其窗口期较短，那么很快就能获取到结果，但是对于长窗口来说窗口时间比较长，如果等窗口期结束才能看到结果，那么这份数据就不具备实时性，大多数情况我们希望能够看到一个长窗口的结果不断变动的情况，对此Flink提供了ContinuousEventTimeTrigger连续事件时间触发器与Con

2021-08-29 11:28:45 455

原创 count window解密

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》flink window可以按照time 与 count分为两类，timeWindow可按照事件事件也可按照处理时间，countWindow按照计数方式，当流入窗口的数据达到一定数据则会触发窗口函数。countWindow 与timeWindow一样需要Assigner、Trigger 等窗口组件

2021-08-29 11:28:01 338

转载 window 实现机制分析

声明：本系列博客部分是根据SGG的视频整理而成，非常适合大家入门学习。部分文章是通过爬虫等技术手段采集的，目的是学习分享，如果有版权问题请留言，随时删除。《2021年最新版大数据面试题全面开启更新》在flink streaming 处理中窗口是比较常见的操作, 例如窗口sum、max、min等，窗口构建主要包含：Assigner、Trigger、Function、Evictor, Assigner: 窗口分配器, 当有一个元素到达判断窗口属于哪一个窗口，对于滚动窗口分配给一个窗口, 对于滑动窗口

2021-08-29 11:23:49 270

大数据面试大总结300页.zip

空空如也