机器学习1

首先什么叫做机器学习?为了解决任务T,设计一段程序,从经验E中学习,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能得到提升。

机器学习分为三类:有监督学习(回归、分类)、无监督学习(聚类、降维)、强化学习(有模型学习、免模型学习)。

机器学习分类

机器学习分类

条件概率:事件A在事件B发生的条件下发生的概率。

条件概率公式

条件概率公式

后验概率

后验概率

机器学习的流程 :1.特征表示。2.选择模型(分类、回归、聚类)。3.训练模型。4.评估。


特征:每个样本包含的多个线索称为特征或维度,比如肿瘤预测问题,可以通过肿瘤大小、患者年龄、肿块密度、肿瘤细胞尺寸等线索来判断。


机器学习方法的三要素:模型、策略、算法。

1.模型。就是要学习的概率分布或决策函数;所有可能的条件概率分布或者决策函数构成的集合;就是模型的假设空间(hypothesis space)。

2.策略。从假设空间中学习最优模型的方法,称为策略。衡量模型好与不好需要这些指标,这时候引入损失函数和风险函数来衡量。预测值和真实值通常是不相等的。我们用损失函数(loss function)或者代价函数(cost function)来度量预测错误的程度。记作L(Y, f(x))。损失函数有: 0-1损失函数、平方损失函数、绝对损失函数、对数损失函数(交义熵损失函数)。
在这里插入图片描述
3.算法。算法是指学习模型时的具体计算方法,求解最优模型归结为一个最优化问题,统计学习的算法等价于求解最优化问题的算法。也就是求解析解或者数值解。

能够让 J(f) 达到最小的 f,就是最好的 f。当找到最好的 f 之后,我们把它带入到原 f(x),使得 f(x) 成为一个完整的 x 的函数,也就是最终的模型函数。怎么能够找到让 J(f) 最小的 f 呢?这就需要用到优化算法了。具体的优化算法有很多,本文先介绍梯度下降法(Gradient Descent)。

梯度下降是一个用来求函数最小值的算法。

1.批量梯度下降(Batch Gradient Descent)
批量梯度下降
指的是在梯度下降的每一步中,我们都用到了所有的训练样本,在梯度下降中,在计算微分时,我们需要进行求和运算,因此得名。

2.随机梯度下降法((Stochastic Gradient Descent)
在这里插入图片描述
随机梯度下降法,和批量梯度下降法是两个极端,批量梯度下降每次采用所有数据来梯度下降,随机梯度下降每次用一个样本来梯度下降。对于训练速度来说,随机梯度下降法由于每次仅仅采用一个样本来迭代,训练速度很快,而批量梯度下降法在样本量很大的时候,训练速度不能让人满意。对于准确度来说,随机梯度下降法每次训练仅仅用一个样本决定梯度方向,可能得到局部最小值。对于收敛速度来说,由于随机梯度下降法一次迭代一个样本,导致迭代方向变化很大,不能很快的收敛到局部最优解。

3.小批量梯度下降(Mini Batch Gradient Descent)
在这里插入图片描述
MBGD称为小批量梯度下降,每次迭代使用-一个以上又不是全部的样本。MBGD的优点:使用多个样本相比SGD提高了梯度估计的精度,小批量的估计,相当于在学习过程中加入了噪声,会有一些正则化的效果。MBGD的缺点:同SGD一样,每次梯度估计的方向不确定,可能需要很长时间接近最小值点,不会收敛通常在使用MBGD之前先将数据集随机打乱,然后再划分Mini-batch,所以MBGD有时也称为SGD。Mini-batch大小的选择通常使用2的幂数,可以获得更少的运行时间。遍历完所有数据,称为一个epoch,通常需要遍历几次epoch才行。

梯度下降的算法调优
在使用梯度下降求极值时,涉及到那几个部分?

1.算法的步长(学习率)选择。可以多取一些值,从大到小,分别运行算法,看看迭代效果。如果损失函数在变小,说明取值有效,否则要增大步长;步长太大,会导致迭代过快,甚至有可能错过最优解;步长太小,迭代速度太慢,很长时间算法都不能结束。

2.算法参数的初始值选择。初始值不同,获得的最小值也有可能不同,因此梯度下降求得的只是局部最小值;当然如果损失函数是凸函数则一定是最优解;由于有局部最优解的风险,需要多饮用不同初始值运行算法;选择损失函数最小化的初值。

3.归一化由于为了减少特征取值的影响,由于祥本不同特征的取值范围不同,导致迭代很慢,可以对特征数据标准化或归一化。这样特征的新期望为0,新方差为1,所有特征梯度下降幅度相近,不会造成震荡。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值