又到花开时节-CSDN博客

原创 Flink机器学习- KMeans算法实现

1、K均值聚类算法定义（百度）k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再

2020-11-13 11:38:39 593

原创 apache提供CollectionUtils集合操作方法总结、StringUtils判空操作

依赖：<dependency> <groupId>commons-collections</groupId> <artifactId>commons-collections</artifactId> <version>3.2.1</version></dependency>-- ------------------------------万恶的分割线 --------------.

2020-11-13 11:07:28 525

原创 FLINK关联维表方式三之一：同步关联外部数据（MYSQL）数据库

package quickstart.stream;import org.apache.flink.api.common.functions.RichMapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.configuration.Configuration;import org.apache.flink.streaming.api.datastream.SingleOutputStre.

2020-08-27 16:56:34 813

原创 FLINK关联维表方式三之二：异步关联外部数据（MYSQL）数据库

主类:package quickstart.stream;import org.apache.flink.streaming.api.datastream.AsyncDataStream;import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;import org.apache.

2020-08-27 08:50:49 611

原创 FLINK关联维表方式二：广播维度信息

package quickstart.stream;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.streaming.api.CheckpointingMode;import org.apache.flink.streaming.util.serialization.SimpleStringSchema;import org.apache.flink.api.common.stat.

2020-08-24 20:16:31 595

原创 FLINK关联维表方式一：缓存维表文件

public class JoinDestributeFile { public static void main(String[] args) throws Exception { //创建环境变量 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); //定义数据源 //缓存文件 env.reg.

2020-08-20 10:52:26 956

原创 FLINK 读取ORACLE数据-通过JDBC方式

package quickstart.batch;import org.apache.flink.api.common.typeinfo.BasicTypeInfo;import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.api.java.io.jdbc.JDBCInputFormat;import org.apa.

2020-08-19 14:40:27 6231 5

原创 FLINK 读取MYSQL数据-通过JDBC方式

package quickstart.batch;import org.apache.flink.api.common.typeinfo.BasicTypeInfo;import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.api.java.io.jdbc.JDBCInputFormat;import org.apa.

2020-08-18 11:05:35 2355 3

转载 Flink写入 Clickhouse

一、背景每天上百亿的日志数据实时查询是个挑战，在架构设计上采用了Kafka + Flink + Clickhouse+Redash，实现海量数据的实时分析。计算层，我们开发了基于Flink计算引擎的实时数据平台，简化开发流程，数据通过配置化实现动态Schema生成，底层数据解析统一，无需重复造轮子，整个数据链路，从数据的采集，转换，存储，可视化，无需写一行代码，配置化完成。本文主要介绍实时日志数据写入Clickhouse的实践。Flink Clickhouse Sink 1 2

2020-08-14 15:43:04 2694