【Scala-ML】使用Scala构建机器学习工作流

最新推荐文章于 2024-07-23 10:34:10 发布

JasonDing1354

最新推荐文章于 2024-07-23 10:34:10 发布

阅读量6.7k

点赞数 1

分类专栏：【Scala Programming】 Scala编程实例文章标签： scala 机器学习

本文链接：https://blog.csdn.net/jasonding1354/article/details/50932921

版权

本文介绍了如何基于Scala设计和实现机器学习工作流。通过管道操作符、单子化数据转换和依赖注入等方法，构建灵活且可重用的计算框架。文中详细探讨了模型选择、工作流设计和计算框架的各个层面，提供了实现动态数据转换的策略。

摘要由CSDN通过智能技术生成

在这一小节中，我将介绍基于数据（函数式）的方法来构建数据应用。这里会介绍monadic设计来创建动态工作流，利用依赖注入这样的高级函数式特性来构建轻便的计算工作流。

在统计学和概率论中，一个模型通过描述从一个系统中观察到的数据来表达任何形式的不确定性，模型使得我们可以用来推断规则，进行预测，从数据中学习有用的东西。
对于有经验的Scala程序员而言，模型常常和monoid联系起来。monoid是一些观测的集合，其中的操作是实现模型所需的函数。

关于模型的特征
模型特征的选择是从可用变量中发现最小集合来构建模型的过程。数据中常常包含多余和不相干的特征，这些多余特征并不能提供任何有用信息，所以需要通过特征选择将有用的特征挑选出来。
特征选择包含两个具体步骤

搜索新的特征子集

通过某种评分机制来评估特征子集

观测数据是一组隐含特征（也称为隐含变量，latent variables）的间接测量，他们可能是噪声，也可能包含高度的相关性和冗余。直接使用原始观测进行预测任务常常得到不准确的结果，使用从观测数据提取的所有特征又带来了计算代价。特征抽取可以通过去除冗余或不相关的特征来减少特征数量或维度。

首先，所选的数学模型是从原始输入数据中抽取知识的，那么模型的选择中需要考虑以下几个方面：

业务需求，比如预测结果的准确度

训练数据和算法的可用性

专业领域的相关知识

然后，从工程角度出发，需要选择一种计算调度框架来处理数据，这需要考虑以下几个方面：

可用资源，如CPU、内存、IO带宽

实现策略，如迭代和递归计算

响应整个过程的需求，如计算时间、中间结果的显示

下面的图标给出了计算模型的工作流程：

在这个流程图中，下游的数据转换（data transformation）的参数需要根据上游数据转换的输出进行配置，Scala的高阶函数非常适合实现可配置的数据转换。

创建足够灵活和可重用的框架的目的是为了更好地适应不同工作流程，支持各种类型的机器学习算法。
Scala通过特质（traits）语法实现了丰富的语言特性，可以通过下面的设计层级来构建复杂的程序框架：

数据转换是对数据进行分类、训练验证模型、结果可视化等每个步骤环节的基础。定义一个符号，表示不同类型的数据转换，而不暴露算法实现的内部状态。而管道操作符就是用来表示数据转换的。

trait PipeOperator[-T, +U] {
   
  def |>(data: T): Option[U]
}

|>操作符将类型为T的数据转换成类型为U的数据，返回一个Option来处理中间的错误和异常。

接下来需要创建单子化的设计（monadic design）来实现管道操作（pipe operator）。通过单子化设计来包装类_FCT。_FCT类的方法代表了传统Scala针对集合的高阶函数子集。

class _FCT[+T](val _fct: T) {

关注

专栏目录