算法基础总结_weighted sum-CSDN博客

本文链接：https://blog.csdn.net/qq_39125106/article/details/109852922

本文深入探讨了深度学习在推荐系统中的应用，特别是DIN（深度兴趣网络）模型，它通过引入注意力机制解决了用户行为序列的信息丢失问题。DIN的核心在于weighted-sum pooling和激活函数Dice，旨在更有效地关注用户行为中的重要信息。此外，文章还讨论了优化策略如ReLU激活函数、优化器选择和防止过拟合的方法，以及评估模型性能的ROC和AUC等指标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

激活函数

Deep learning

李宏毅深度学习课程笔记

为什么网络越深效果越好

一种理解：4层网络通过取不同的参数值可以等价于3层、2层……的网络，也就是可选的拟合函数集范围更大，因此可能能训得更好的网络

梯度消失

由于网络初始几层的参数的更新需要从后往前的梯度相乘，造成前面的梯度越来越小
在这里插入图片描述
直观理解：初始层的δw变化很多，但是经过sigmoid后变化的值δc非常小

1.使用ReLU类的激活函数

在这里插入图片描述
部分神经元的值变为0，其余变为线性，相当于下图，在梯度反向传播时，就只训了下图中存在的节点，其他节点能在其他样本输入的情况下训练

RELU相关变体

Maxout(类似max pooling)

可以自适应得到不同结构的激活函数
在这里插入图片描述

2.更优的optimizer

过拟合

1.early stopping

用validation set让模型停在test loss最小的地方在这里插入图片描述

2.正则化

3.Dropout

train：训练时每个神经元都有p%的概率不参与训练，实际相当于训了多个不同的子网络（每个batch都是不同的子网络），但是这些子网络间的权重是共享的，只是排列组合成了不同的子网络，如下图
在这里插入图片描述
test：

给每一个权值乘以（1-p%）【相当于期望？？（自己理解）】，测试相当于所有训练的子模型取平均。如下图所示，但其实这种直观的理解只对线性模型等价，对于非线性模型是不等价的，但是也work，原因未知……
在这里插入图片描述

评价指标

ROC和AUC

ROC曲线：通过不断移动分类器的“截断点”来生成曲线上的一组关键点的，从最高的得分开始（实际上是从正无穷开始，对应着ROC曲线的零点），逐渐调整到最低得分，每一个截断点都会对应一个FPR和TPR，在ROC图上绘制出每个截断点对应的位置，再连接所有点就得到最终的ROC曲线。

AUC：ROC曲线下的面积大小，AUC越大，说明分类器越可能把真正的正样本排在前面，分类性能越好。

当二者相等时，即y=x。表示的意义是：对于不论真实类别是1还是0的样本，分类器预测为1的概率是相等的。换句话说，分类器对于正例和负例毫无区分能力，和抛硬币没什么区别。
在这里插入图片描述
我们希望分类器达到的效果是：对于真实类别为1的样本，分类器预测为1的概率（即TPRate），要大于真实类别为0而预测类别为1的概率（即FPRate），即y＞x，因此大部分的ROC曲线长成下面这个样子：

理想的情况下，既没有真实类别为1而错分为0的样本——TPRate一直为1，也没有真实类别为0而错分为1的样本——FP rate一直为0，AUC为1，这便是AUC的极大值。