训练模型目标
在先不考虑泛化能力的情况下(例如通过正则化等方式来提高模型泛化能力),根据历史数据训练得到算法参数,也就是说
模型训练过程是在逐步获得,最大拟合训练集的对应参数值,
并且期望这些参数可以在未带label值的数据中计算得到label的值
那训练模型目的就是希望得到最拟合已有数据分布(数据集)的对应参数值(多次强调)
那模型如何最拟合已有数据分布呢??
本来通过逻辑回归来解析整一个过程:
假设已经有N个样本,样本的标签只有0和1两类
我们把单个样本看做一个事件,那么这个事件发生的概率就是:
这个函数不方便计算,它等价于
解释下这个函数的含义,我们采集到了一个样本 ( x i , y i ) (x_i, y_i) (xi,yi),对这个样本,它的标签是 y i y_i yi的概
率是 p y i ( 1 − p ) 1 − y i p^{y_i}(1-p)^{1-y_i} pyi(1−p)1−yi(当 y i = 1 y_i=1 yi=1,结果是 p p p;当 y i = 0 y_i=0 yi=0,结果是 1 − p 1-p 1−p)
如果我们采集到了一组数据一共N个
这个合成在一起的合事件发生的总概率怎么求呢?
其实就是将每一个样本发生的概率相乘就可以了,即采集到这组样本的概率:
这个相乘的函数就是已有的样本分布的似然函数
这里引入极大似然估计的概念。
极大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
例如已经存在的样本分布为30次y=0,70次y=1
那似然函数的值就等于 p 30 p 70 p^{30}p^{70} p30p70,那我们就通过求得使得似然函数 p 30 p 70 p^{30}p^{70} p30p70最大值的时候对应的p值,来得到最匹配已存在数据分布的p值
如何实现模型训练目标:
通过得到极大化似然函数时的对应参数值 也就是 得到最拟合已有数据分布的对应参数值
求似然函数取得最大值对应的参数:求导 ==> 取极值点得(这部分本文不过多讲解)
模型训练整过程:
在已有样本的情况下,使用梯度下降的方法,找出使似然函数最大(也就是损失函数最小)时对应的参数值,即等价于找出最拟合已有数据分布的对应参数值