机器学习1

最新推荐文章于 2024-09-30 14:50:12 发布

tomatotian

最新推荐文章于 2024-09-30 14:50:12 发布

阅读量139

点赞数

文章标签：特征工程模型参数机器学习

本文链接：https://blog.csdn.net/tomatotian/article/details/102943941

版权

首先什么叫做机器学习？为了解决任务T，设计一段程序，从经验E中学习，达到性能度量值P，当且仅当有了经验E后，经过P评判，程序在处理T时的性能得到提升。

机器学习分为三类:有监督学习(回归、分类）、无监督学习（聚类、降维）、强化学习（有模型学习、免模型学习）。

机器学习分类

条件概率:事件A在事件B发生的条件下发生的概率。

条件概率公式

后验概率

机器学习的流程 ：1.特征表示。2.选择模型（分类、回归、聚类）。3.训练模型。4.评估。

特征：每个样本包含的多个线索称为特征或维度，比如肿瘤预测问题，可以通过肿瘤大小、患者年龄、肿块密度、肿瘤细胞尺寸等线索来判断。

机器学习方法的三要素：模型、策略、算法。

1.模型。就是要学习的概率分布或决策函数；所有可能的条件概率分布或者决策函数构成的集合；就是模型的假设空间(hypothesis space)。

2.策略。从假设空间中学习最优模型的方法，称为策略。衡量模型好与不好需要这些指标，这时候引入损失函数和风险函数来衡量。预测值和真实值通常是不相等的。我们用损失函数(loss function)或者代价函数(cost function)来度量预测错误的程度。记作L(Y, f(x))。损失函数有： 0-1损失函数、平方损失函数、绝对损失函数、对数损失函数(交义熵损失函数)。
在这里插入图片描述
3.算法。算法是指学习模型时的具体计算方法，求解最优模型归结为一个最优化问题，统计学习的算法等价于求解最优化问题的算法。也就是求解析解或者数值解。

能够让 J（f）达到最小的 f，就是最好的 f。当找到最好的 f 之后，我们把它带入到原 f(x)，使得 f(x) 成为一个完整的 x 的函数，也就是最终的模型函数。怎么能够找到让 J（f）最小的 f 呢？这就需要用到优化算法了。具体的优化算法有很多,本文先介绍梯度下降法（Gradient Descent）。

梯度下降是一个用来求函数最小值的算法。

1.批量梯度下降（Batch Gradient Descent)

指的是在梯度下降的每一步中，我们都用到了所有的训练样本，在梯度下降中，在计算微分时，我们需要进行求和运算，因此得名。

2.随机梯度下降法（(Stochastic Gradient Descent)
在这里插入图片描述
随机梯度下降法，和批量梯度下降法是两个极端，批量梯度下降每次采用所有数据来梯度下降，随机梯度下降每次用一个样本来梯度下降。对于训练速度来说，随机梯度下降法由于每次仅仅采用一个样本来迭代，训练速度很快，而批量梯度下降法在样本量很大的时候，训练速度不能让人满意。对于准确度来说，随机梯度下降法每次训练仅仅用一个样本决定梯度方向，可能得到局部最小值。对于收敛速度来说，由于随机梯度下降法一次迭代一个样本，导致迭代方向变化很大，不能很快的收敛到局部最优解。

3.小批量梯度下降（Mini Batch Gradient Descent)
在这里插入图片描述
MBGD称为小批量梯度下降，每次迭代使用-一个以上又不是全部的样本。MBGD的优点:使用多个样本相比SGD提高了梯度估计的精度，小批量的估计，相当于在学习过程中加入了噪声，会有一些正则化的效果。MBGD的缺点:同SGD一样，每次梯度估计的方向不确定，可能需要很长时间接近最小值点，不会收敛通常在使用MBGD之前先将数据集随机打乱，然后再划分Mini-batch,所以MBGD有时也称为SGD。Mini-batch大小的选择通常使用2的幂数，可以获得更少的运行时间。遍历完所有数据，称为一个epoch，通常需要遍历几次epoch才行。