2019年12月_阿华田512

12月 11月 10月 08月 07月 06月 05月 04月 03月 02月 01月

原创 flink实战--flink面试题大全

第一部分：Flink 中的核心概念和基础考察一、简单介绍一下 FlinkFlink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务：DataSet API，对静态数据进行批处理操作，将静态数据抽象成分布式的数据集，用户可以方便地使用Fl...

2019-12-30 18:30:07 1130 2

原创 flink实战--开发中常见的错误与问题

常见错误集1.Checkpoint失败：Checkpoint expired before completing env.enableCheckpointing(1000L) val checkpointConf = env.getCheckpointConfig checkpointConf.setMinPauseBetweenCheckp...

2019-12-19 20:55:02 20897 3

原创 flink实战--累加器（accumulator）如何使用

简介 Flink的Accumulators(累加器)相比spark的累加器，使用起来是非常简单的。通过一个add操作累加最终的结果，在flink任务执行完可以获取最终结果，通过累加器我们可以获取flink任务某些指标的全局值，没有累加器你只能获取单个分区的值，所以累加器在调试程序或者更快了解你的flink任务运行数据的时候是非常有用的。使用步骤第一步：创建 ...

2019-12-19 18:12:06 1319

原创 flink实战--基于Kafka+Flink(窗口+窗口函数)+Redis电商大屏实时计算PV,UV

背景阿里的双11销量大屏可以说是每年双十一的一道特殊的风景线。实时大屏（real-time dashboard）正在被越来越多的企业采用，用来及时呈现关键的数据指标。并且在实际操作中，肯定也不会仅仅计算一两个维度。由于Flink的“真·流式计算”这一特点，它比Spark Streaming要更适合大屏应用。本文将结合实际工作经验抽象出简单的模型，并简要叙述计算流程（当然大...

2019-12-18 11:59:44 5135

原创 python导包失败问题解析--ImportError: No module named XXXX

问题Traceback (most recent call last): File "/home/app/auto_train/scripts/train_auto/train_auto.py", line 5, in <module> from monitor import yarn_monitor ImportError: No module named monitor...

2019-12-16 11:33:38 3669

原创 flink实战--分布式缓存Distributed Cache

简介 Flink提供了一个分布式缓存，在flink流处理或者批处理，用户在并行函数中可以很方便的读取本地文件，并把它放在taskmanager节点中，防止task重复拉取。原因是flink不能像mapReduce一样让计算随着数据所在的位置进行计算，此缓存的工作机制如下：程序注册一个文件或者目录(本地或者远程文件系统，例如hdfs或者s3)，通过ExecutionEnvir...

2019-12-04 18:03:36 457