Amazon Deep Java Library——Java 机器学习工具箱

本文链接：https://blog.csdn.net/qq_43623970/article/details/106927349

本文介绍了如何使用Amazon的Deep Java Library (DJL)结合JSR-381 VisRec API在Java中进行图像分类和对象检测。通过预训练模型，演示了识别手写数字和使用SSD模型进行物体检测的例子，展示了Java在机器学习领域的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

近年来，人们对机器学习的兴趣稳步增长。具体来说，现在，企业在各种各样的场景中使用机器学习进行图像识别。它在汽车工业、医疗保健、安全、零售、仓库、农场和农业的自动化产品跟踪、食品识别，甚至通过手机摄像头进行实时翻译等方面都有应用。借助机器学习和视觉识别，机器可以从MRI 和CT 扫描结果中发现癌症和 COVID-19 。

如今，这些解决方案主要是用 Python 开发的，使用了开源和专有的 ML 工具包，每个工具包都有自己的 API。尽管 Java 在企业中很流行，但是 Java 中没有任何标准是针对机器学习应用程序开发的。 JSR-381 的提出就是为了填补这项空白，它为 Java 应用程序开发人员提供了一套标准的、灵活的、Java 友好的、面向视觉识别（VisRec）应用程序（如图像分类和对象检测）的 API。JSR-381 有几个依赖于 TensorFlow、MXNet 和 DeepNetts 等机器学习平台的实现。其中一个实现是基于 Deep Java Library （DJL）的，这是一个由 Amazon 开发的开源库，用于使用 Java 构建机器学习应用。DJL 通过绑定必要的图像处理例程，提供了流行机器学习框架（如 TensorFlow 、 MXNet 和 PyTorch ）的钩子，对于 JSR-381 的用户来说，这是一个灵活而简单的选项。

在本文中，我们将演示 Java 开发人员如何使用 JSR-381 VisRec API 在不到 10 行代码内利用 DJL 的预训练模型实现图像分类或对象检测。我们还通过两个例子演示了用户如何在 10 分钟内使用预先训练好的机器学习模型。让我们开始吧！

使用预训练的模型识别手写数字

识别手写数字是一个有用的应用，也是视觉识别的一个“hello world”示例。对人类来说，识别手写数字似乎很容易。得益于我们大脑中视觉和模式匹配子系统的处理能力和协作，我们通常可以从潦草的手写文件中正确地识别出数字。然而，由于可能存在许多变化，这个看似简单的任务对于机器来说是难以置信的复杂。这是机器学习，特别是视觉识别的一个很好的用例。JSR 381 库中有一个很好的示例，使用JSR-381 VisRec API 正确地识别出了手写数字。这个示例将手写数字与 MNIST 手写数字数据集进行比较，后者是一个包含超过 6 万幅图像的公开数据库。预测图像所代表的内容称为图像分类。我们的示例查看一副新图像，并确定它具体是哪个数字的概率。

对于这项任务，VisRec API 提供了一个ImageClassifier接口，可以使用泛型参数具体化为输入图像的特定 Java 类。它还提供了一个classie()方法，该方法执行图像分类并返回所有可能的图像类别与概率的Map。根据 VisRec API 的约定，每个模型都提供一个静态的builder()方法，它返回一个对应的builder对象，并允许开发者配置所有相关的设置，例如imageHeight、imageWidth。

在我们的手写数字示例中，要定义一个图像分类器，就需要使用inputClass(BufferedImage.class) 配置输入句柄。你可以通过它指定使用哪个类来表示图像。你可以使用imageHeight(28)和imageWidth(28) 将图像尺寸调整到 28x28，模型最初训练时就用的这个大小。分类器对象构建完成后，将输入图像输入到分类器以识别图像。

File input = new File("../jsr381/src/test/resources/0.png");
// 使用 mlp 文件夹里的预训练模型
Path modelPath = Paths.get("../jsr381/src/test/resources/mlp");
ImageClassifier<BufferedImage> classifier =
       NeuralNetImageClassifier.builder()
           // 输入时一个图像文件，应该作为 BufferImage 进行处理
           .inputClass(BufferedImage