在线学习FTRL

最新推荐文章于 2020-12-14 10:13:59 发布

小亚呀

最新推荐文章于 2020-12-14 10:13:59 发布

阅读量407

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/qq_35314257/article/details/84640459

版权

ML 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

FM：
回归问题：最小均方误差(the least square error) 均方(一组数的平方的平均值)

在这里插入图片描述
二分类问题：对数损失函数，其中表示的是阶跃函数Sigmoid

对数损失是用于最大似然估计的，一组参数在一堆数据下的似然值，等于每一条数据的概率之积，而损失函数一般是每条数据的损失之和，为了把积变为和(我的理解：方便计算)，就取了对数。再加个负号是为了让最大似然值和最小损失对应起来(本来求和最大时对应的参数，加上负号后，求和最小时对应的参数，则等价于求最小损失)。

这个就是标准形式的对数损失函数，将sigmoid函数带入，符号抵消，即为log(1+exp(-yf(x)))

对于回归问题：
在这里插入图片描述

在使用SGD训练模型时，在每次迭代中，只需计算一次所有f的，就能够方便得到所有V i,f的梯度，(上述偏导结果求和公式中没有i,即与i无关，只与f有关)显然计算所有f的的复杂度是O(kn),模型参数一共有nk + n + 1个。因此，FM参数训练的复杂度也是O(kn).综上可知，FM可以在线性时间训练和预测，是一种非常高效的模型。

FTRL：
在这里插入图片描述
四个参数的设定结合paper里的指导意见以及反复实验测试，找一组适合自己问题的参数就可以了。这里我想提一点，即上面所谓的per-coordinate，其意思是FTRL是对w每一维分开训练更新的，每一维使用的是不同的学习速率，也是上面代码中lamda2之前的那一项。与w所有特征维度使用统一的学习速率相比，这种方法考虑了训练样本本身在不同特征上分布的不均匀性，如果包含w某一个维度特征的训练样本很少，每一个样本都很珍贵，那么该特征维度对应的训练速率可以独自保持比较大的值，每来一个包含该特征的样本，就可以在该样本的梯度上前进一大步，而不需要与其他特征维度的前进步调强行保持一致。

小亚呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
在线学习FTRL

FM：回归问题：最小均方误差(the least square error) 均方(一组数的平方的平均值)二分类问题：对数损失函数，其中表示的是阶跃函数Sigmoid对数损失是用于最大似然估计的，一组参数在一堆数据下的似然值，等于每一条数据的概率之积，而损失函数一般是每条数据的损失之和，为了把积变为和(我的理解：方便计算)，就取了对数。再加个负号是为了让最大似然值和最小损失对应起来(本...
复制链接

扫一扫

专栏目录