手推FlinkML2.2（一）

最新推荐文章于 2024-02-22 20:00:45 发布

VIP文章爱学习的菜鸟罢了

最新推荐文章于 2024-02-22 20:00:45 发布

阅读量772

点赞数

分类专栏：搜广推 flink 大数据文章标签： flink 机器学习人工智能深度学习 nlp

本文链接：https://blog.csdn.net/qq_34387470/article/details/130349852

版权

Java

快速入门 # 本文档提供了一个关于如何使用Flink ML的快速入门。阅读本文档的用户将被指导提交一个简单的Flink作业，用于训练机器学习模型并提供预测服务。

求助，我卡住了！# 如果你遇到困难，请查看社区支持资源。特别是，Apache Flink的用户邮件列表一直被评为Apache项目中最活跃的之一，是快速获得帮助的好途径。

前提条件 # 确保Java 8或更高版本已经安装在您的本地计算机上。要检查已安装的Java版本，请在终端中输入：

$ java -version 下载 Flink # 下载1.15或更高版本的Flink，然后解压缩存档文件：

$ tar -xzf flink-*.tgz 设置 Flink 环境变量 # 下载Flink后，请将$FLINK_HOME注册为本地环境中的环境变量。

cd ${path_to_flink} export FLINK_HOME=pwd 将 Flink ML库添加到 Flink 的库文件夹中 # 您需要将Flink ML的库文件复制到Flink的文件夹中以便正确初始化。

请下载相应的Flink ML二进制发行版，然后解压缩存档文件：

tar -xzf flink-ml-*.tgz 然后，您可以使用以下命令将解压后的库文件复制到Flink的文件夹中。

cd ${path_to_flink_ml} cp ./lib/*.jar $FLINK_HOME/lib/ 运行 Flink ML 示例作业 # 请使用以下命令在本地环境中启动一个Flink独立集群。

$FLINK_HOME/bin/start-cluster.sh 您应该能够导航至localhost:8081查看Flink仪表板并确认集群已启动并运行。

然后，您可以按照如下方式将Flink ML示例提交给集群。

$FLINK_HOME/bin/flink run -c org.apache.flink.ml.examples.clustering.KMeansExample $FLINK_HOME/lib/flink-ml-examples*.jar 上述命令将提交并执行Flink ML的KMeansExample作业。还有其他Flink ML算法的示例作业，您可以在flink-ml-examples模块中找到它们。

终端中的示例输出如下所示。

Features: [9.0, 0.0] Cluster ID: 1

Features: [0.3, 0.0] Cluster ID: 0

Features: [0.0, 0.3] Cluster ID: 0

Features: [9.6, 0.0] Cluster ID: 1

Features: [0.0, 0.0] Cluster ID: 0

Features: [9.0, 0.6] Cluster ID: 1

现在您已经成功运行了一个FlinkML Job。

您将构建什么？ Kmeans是一种广泛使用的聚类算法，并得到了Flink ML的支持。本教程将指导您使用Flink ML创建一个Flink作业，初始化并训练一个Kmeans模型，最后使用它来预测某些数据点的聚类ID。

先决条件 # 本教程假定您对Java有一定了解，但即使您使用的是不同的编程语言，也应该能够跟随教程进行。

帮助，我遇到困难了！如果你遇到困难，请查看社区支持资源。特别是，Apache Flink的用户邮件列表一直被评为Apache项目中最活跃的之一，是快速获得帮助的好方法。

如何跟随教程 # 如果您想跟随教程，您需要一台具有以下配置的计算机：

Java 8 Maven 3 尽管在以下步骤中提供了要在CLI中执行的命令以完成此示例，但建议使用IDE，如IntelliJ IDEA，来管理、构建和执行下面的示例代码。

请使用以下命令创建一个Flink Maven Archetype，它提供了一个项目的基本框架，并附带一些必要的Flink依赖项。

$ mvn archetype:generate

-DarchetypeGroupId=org.apache.flink

-DarchetypeArtifactId=flink-quickstart-java

-DarchetypeVersion=1.15.1

-DgroupId=kmeans-example

-DartifactId=kmeans-example

-Dversion=0.1

-Dpackage=myflinkml

-DinteractiveMode=false 上面的命令将在您当前的目录中创建一个名为kmeans-example的maven项目，结构如下：

$ tree kmeans-example

kmeans-example

├── pom.xml

└── src

└── main

├── java

│ └── myflinkml

│ └── DataStreamJob.java

└── resources

└── log4j2.properties

将pom.xml中提供的依赖项更改为以下内容：