2. 推荐原理的简化说明

最新推荐文章于 2024-07-11 15:21:16 发布

qq_31319099

最新推荐文章于 2024-07-11 15:21:16 发布

阅读量90

点赞数

分类专栏：推荐原理简化文章标签：机器学习算法数据挖掘

本文链接：https://blog.csdn.net/qq_31319099/article/details/112850331

版权

推荐原理简化专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

笔者是名半吊子算法工程师，毕业专业是物理类学科，标准半路出家。所以，基础薄弱，技术能力颇为捉急。到现在，从事推荐算法岗位也算有一段时日，勉强积攒了一些关于这一领域的浅显知识，不少还是谬误。因此，有空就来分享一下，共同交流，共同进步。错误之处，恳请大家不吝指出，感谢。

摘要

为了更好地说明推荐算法，个人觉得还是应该简单的花点篇幅介绍一下推荐原理，避免后期的博文一大堆公式，让人不知道怎么来的。下面，将结合简单的一元方程，给出简单的推导。

示例

例如，有个电阻值未知的电阻。我们进行了一次实验，电压值设为 $U_{1}$ ，测得电流值为 $I_{1}$ 。请问，不考虑其他电阻情况下，该未知电阻的电阻值是？以上均为国际单位。
回答：
基于初中的物理知识里的欧姆定律，我们可知， $U=I\ast R$ ,
其中， $U$ 为电压， $I$ 为电流， $R$ 为电阻。因此，可列出公式：
$\\I_{1}\ \ast R\ =\ U_{1}$
非常简单的一元方程，根据小学知识可以算得,
$R=U_{1}\ /\ I_{1}$
这个是准确解，测量一次即可获得结果。
然而（不然而的话，后面的段落就没法引出来了，笑），假设由于仪器测量的精度，我们记录的数值是有误差的，并且误差是无偏的，也就是说，测量越多，误差的整体偏差越小。因此，我们测量了多次结果，也就是 $\left( U_{1},\ I_{1}\right)$ , $\left( U_{2},\ I_{2}\right)$ , …, $\left( U_{N},\ I_{N}\right)$ 。从而，可以定义一个整体误差函数：
$Devation(R)\ =\ \sum^{N}_{i=1} \left( I_{i}\ \ast R-U_{{}_{i}}\right)^{2}/\ 2$
其中，除以2这一部分纯粹是为了后面的公式好看，并没有什么影响。
可以轻易看出，这是一个凸函数（标准抛物线，二次导数恒 $> = 0$ ）。当其取到最小值时，此时对应的 $R$ 的值就是我们的最优结果。
所以，对其求导取极值点即可：
$\ \ \ \ \ \ {\partial Devation}/{\partial R}\ =\ 0$
$\Rightarrow\sum^{N}_{i=1} \left( I_{i}\ \ast R-U_{{}_{i}}\right)\ast I_{i}\ =\ 0$
$\Rightarrow R\ =\ \sum^{N}_{i=1} (I_{i}\ast U_{i} )/ \sum^{N}_{i=1} I_{i}^{2}$
非常简单。实际上，这就是最小二乘法的解。（即 $A^{T}A\overrightarrow{X} =A^{T}\overrightarrow{Y}$ ）

我们也可以拓展一下，当存在两个未知数呢？
也就是 $U=I\ast R +B$ , 其中B是个固定偏差，也是未知的。则整体误差函数为：
$Devation(R)=\sum^{N}_{i=1} \left( I_{i}\ \ast R+B-U_{{}_{i}}\right)^{2}/\ 2$
一样的，对其求导。并且，考虑到两个变量是独立不相关的，转为求各自的偏导（因为各自都取到极值时，合在一起的值也自然是极值。类似于，语文课得到了满分，数学课也是，所以两门课总分的满分也是这两个满分的叠加)：
$\ \ \ \ \ \ {\partial Devation}/{\partial R}=0$
$\ \ \ \ \ \ {\partial Devation}/{\partial B}=0$
$\Rightarrow\sum^{N}_{i=1} \left( I_{i}\ast R+B-U_{i}\right)\ast I_{i}=0$
$\ \ \ \ \ \sum^{N}_{i=1} \left( I_{i}\ast R+B-U_{i}\right) =0$
$\Rightarrow R\ast\sum^{N}_{i=1}I_{i}^{2}+B\ast \sum^{N}_{i=1}I_{i}=\sum^{N}_{i=1}U_{i}I_{i}$
$\ \ \ \ \ \ R \ast\sum^{N}_{i=1} I_{i}+B\ast N=\sum^{N}_{i=1}U_{i}$
$\Rightarrow R=\frac{N \ast \sum^{N}_{i=1}(U_{i}I_{i})-\sum^{N}_{i=1}U_{i}\sum^{N}_{i=1}I_{i}}{N \ast\sum^{N}_{i=1}I_{i}^{2}-(\sum^{N}_{i=1}I_{i})^{2}}$
$\ \ \ \ \ B=\frac{\sum^{N}_{i=1}U_{i}\sum^{N}_{i=1}I_{i}^{2}-\sum^{N}_{i=1}(U_{i}I_{i})\sum^{N}_{i=1}I_{i}}{N\ast\sum^{N}_{i=1}I_{i}^{2}-(\sum^{N}_{i=1}I_{i})^{2}}$
还是最小二乘法的解。

梯度下降

话说回来，在上面的示例中，明明最优解是可以直接通过解方程来算出来的，为何简化思路里需要提到“调整”这一操作呢？
原因在于，实际场景下，考虑到数据量级 + 变量维度，会产生极高维度的方程组，会导致计算机的节点压力超过负荷（也就是无法计算）以及其他可能的问题。并且，这种方法每次都需要聚合历史数据+新数据，展开重新计算，压力会越来越大。
因此，能够简化这类问题的梯度下降法，是个很合适的选择。根据下图（单变量凸函数）可以看出，当在极值点左侧时，导数值（此时，就是切线的斜率，也是梯度）为负值；在极值点右边时，导数值为正值。
凸函数切线图

因此，随机初始化变量值，然后基于累积数据对应的梯度，对变量值进行反向变化， $X_{next}=X_{now}-\eta \ast Gradient$ （变化的幅度 $\eta$ ，称为“学习率”），直到梯度值趋于0时为止。由于凸函数的特性，梯度值趋于0时，此时的极值就是全局最优解。补充一下，梯度值在实际做法里是可以调整为只基于新数据进行迭代计算的（无需重复聚合）。
所以，可以遍历训练数据，每次一条或者几条（batch模式），迭代变量值，直到遍历结束。实际场景下，很多公司也也是采取这种方法。
顺便补充一下，上面的梯度下降法思路，是比较简单的直观思路，但并非基于函数优化的方法出发的，考虑到后续章节的延伸，这边还是贴出优化函数：
$\ \ \ \ \ \ \ \overrightarrow{g\_now} \ast\overrightarrow{x}+\frac{1}{2\eta}\ast||\overrightarrow{x}-\overrightarrow{x\_now}||_{2}^{2}$
这里的 $||\overrightarrow{A}||_{2}^{2}$ 符号，是指对 $\overrightarrow{A}$ 向量的各维度值的平方和。 ${}_{m}$ 是指 $\sqrt[m]{\sum^{N}_{i=1}A_{i}^{m}}$ ，其中 $N$ 是 $\overrightarrow{A}$ 向量的维度大小，因此， ${}_{m}$ 本质上就是取模操作。而， $\overrightarrow{x\_now}$ 是当前的变量值， $\overrightarrow{g\_now}$ 是当前梯度值。而 $\overrightarrow{x}$ 则是未知量，也就是说，对其进行求偏导。
因此，对优化函数进行求导（各维度分别求偏导），得
$\Rightarrow g\_now_{i} + \frac{1}{\eta}\ast(x_{i}-x\_now_{i})=0$
$\Rightarrow x_{i}=x\_now_{i} -\eta\ast g\_now_{i}$
合并各维度，即 $\overrightarrow{x}=\overrightarrow{x\_now} -\eta\ast \overrightarrow{g\_now}$

正则项

在实际工作里，基于监督标签所建立的损失函数，往往效果是不太尽如人意。很多时候，模型对于训练数据里的预测结果，正确率很高，但对于测试数据，正确率反而偏低。这个就是老生常谈的“过拟合”现象。
如下图所示：

最右端即为过拟合。
基于实际生活里的“奥卡姆剃刀”哲理（简单的模型更符合真实，例如万有引力等定律中的2次方，哥白尼的日心说，欧姆定律，质能方程、电磁方程等），我们认为，影响结果的维度（敏感变量）是比较少的，也就是说，其他大部分变量的权重值应该很小或者是0值。因此，我们引入正则项：
正则项列表
可以看出，正则项函数也都是凸函数。通过对损失函数添加正则项，相对而言，可以较好的抑制过拟合问题。具体原理，有兴趣的可以查询一下，由于笔者水平有限，也就不做摘抄。

后续章节

下一章节，将会对计算广告进行介绍，着重广告推荐的部分。
PS: 相关图片为网上搜集，若有侵权，通知删除。

qq_31319099

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2. 推荐原理的简化说明

前言笔者是名半吊子算法工程师，毕业专业是物理类学科，标准半路出家。所以，基础薄弱，技术能力颇为捉急。到现在，从事推荐算法岗位也算有一段时日，勉强积攒了一些关于这一领域的浅显知识，不少还是谬误。因此，有空就来分享一下，共同交流，共同进步。错误之处，恳请大家不吝指出，感谢。摘要为了更好地说明推荐算法，我觉得还是应该简单的花点篇幅介绍一下推荐原理，避免后期的博文一大堆公式，让人不知道怎么来的。下面，将结合简单的一元方程，给出简单的推导。示例例如，有个电阻值未知的电阻。我们进行了一次实验，电压值设为U1，
复制链接

扫一扫