机器学习算法(1) 基础入门

最新推荐文章于 2024-05-03 17:52:16 发布

Toady 元气满满

最新推荐文章于 2024-05-03 17:52:16 发布

阅读量433

点赞数

分类专栏：机器学习算法文章标签：算法人工智能

本文链接：https://blog.csdn.net/lft_happiness/article/details/127686491

版权

机器学习算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

简单介绍

统计学习也被称为统计机器学习，统计学习的方法是基于数据构建概率统计模型从而对数据进行预测和分析。统计学习方法由三要素组成：模型+策略+算法。

实现统计学习算法的步骤：

(1) 得到一个有限的训练数据集合。

(2) 确定包含所有可能的模型的假设空间，即学习模型的集合。

(3) 确定模型选择的准则，即学习的策略。

(4) 实现求解最优模型的算法，即学习的算法。

(5) 通过学习方法选择最优模型。

(6) 利用学习的最优模型对新数据进行预测或分析。

基本分类

监督学习：是指从标注数据中学习预测模型的机器学习问题。也就是从训练数据集合中学习模型，对测试数据进行预测。本质上是学习输入到输出的映射的统计规律。

无监督学习：是指从无标注数据中学习预测模型的机器学习问题。本质上是学习数据中的统计规律或潜在结构。模型可以实现对数据的聚类、降维或概率估计。

强化学习：是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。本质上是学习最优的序贯决策。

半监督学习：是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常少量标注数据，大量未标注数据。半监督学习旨在利用未标注数据中的信息，辅助标注数据，进行监督学习，以较低的成本达到较好的学习效果。

主动学习：是指机器不断主动给出实例让教师去标注，然后利用标注数据学习预测模型的机器学习问题。

常见的损失函数

Y表示真实值，f(x) 表示预测值。损失函数越小，模型就越好。

(1) 0-1 损失函数

(2) 平方损失函数

(3) 绝对损失函数

(4) 对数损失函数

过拟合

过拟合是指学习时选择的模型所包含的参数过多，以至于出现这一模型对一直数据预测的很好，但对未知数据预测得很差的现象。

下图表示了训练误差和测试误差与模型复杂度的关系。当模型的复杂度增大时，训练误差会逐渐减小并趋于0；而测试误差会先减小，达到最小值之后又增大。当选择的模型复杂度过大时，就会出现过拟合。所以我们选择最优的模型时，往往以达到使测试误差最小为学习目的。

交叉验证

交叉验证是模型选择的一种方法。如果给定的样本充足，进行模型选择的一种简单方法就是随机地将数据分为三部分，训练集，验证集和测试集，其中训练集用来训练模型，验证集用来模型的选择，测试集用于最终对学习方法的评估。但是在许多实际应用中数据都是不充足的，此时为了选择好的模型，可以采用交叉验证的方法。

(1) 简单交叉验证

随机将数据分为训练数据(占70%)和测试数据(占30%)；然后用训练集在各种条件下(例如，不同的参数个数)训练模型，从而得到不同的模型；在测试集上评价各个模型的测试误差，选出测试误差最小的模型。

(2) S折交叉验证

首先随机将数据切分为S 个互不相交、大小相同的子集；然后利用S-1 个子集的数据训练模型，利用余下的子集测试模型，从而得到不同的模型；将这一过程对可能的S种选择重复进行；最终选出S次评测中平均测试误差最小的模型。

(3) 留一交叉验证

S折交叉验证的特殊情形是S=N，称为留一交叉验证，往往在数据最缺乏的情况下使用。这里，N是给定的数据集的容量。