DIN算法介绍

最新推荐文章于 2025-02-16 00:26:19 发布

多佛朗mingle

最新推荐文章于 2025-02-16 00:26:19 发布

阅读量7.2k

点赞数 14

本文链接：https://blog.csdn.net/suspend2014/article/details/104377681

版权

参考文献
Deep Interest Network for Click-Through Rate Prediction
前情提要
FFM
Wide & Deep
DeepFM

DIN，全名Deep Interest Network，中文名深度兴趣网络，经过之前的介绍，想必大家对Deep已经不陌生了，那这里在Deep里还加了个Interest，显得非常Interesting,那这具体是指什么呢？

“我不管什么低阶特征交叉，高阶特征交叉！我只想说，你们全错了！我不是针对谁，我是说在座的各位！首先，你们模型不管怎么花里胡哨，最终总能简化成如下图所示。"阿里缓缓说道。

在这里插入图片描述
“不对，我还有FM部分”，“不对，我还有wide部分”DeepFM，Wide&deep纷纷嚷道。

“闭嘴，这不是重点！重点是你们都使用了embedding（那个隐向量也是embedding的一种）!号称万物皆可embedding!你们对天使用embedding,对地使用embedding,那也就算了，只是你怎么能忍心对你们的用户也使用embedding呢？每个人都是折翼的天使，都是不一样的烟火，能简简单单地用一个embedding代表一个人么？你们觉得用多少维度的embedding就可以代表你们那宛如少女一样可爱的用户呢？少了我觉得不合适吧，毕竟当下的时代，谁还不是个小公主小王子呢，每个人都兴趣广泛，一个人可以同时喜欢打篮球，织毛衣，或喜欢一边打篮球一边织毛衣，维度较低的embedding怎么可能表示得了这么多的爱好呢？那你说弄个大维度的embedding,可以倒是可以，只是你们训练得过来么？那你们问我怎么办？简单，来个色彩斑斓的embedding!或者说是动态的embedding！如下图所示。”
在这里插入图片描述
“看着就色彩斑斓有木有！我来勉为其难地跟你们解释下，比起在上面的毫无特色的Base Model,我的这个Deep Interest Network多了些叫Activation Unit的东西。话说回来，你们说的那什么DeepFM，Wide&deep是主要用在CTR领域的，说明下CTR，顺便解释下上面的图，所谓的CTR，主要就是说针对一个用户，我们扔个item过去，需要判断这个用户对这个item的兴趣程度，兴趣大他们才会点击，那这个item也可以是Ad，就是广告，大家都要恰饭的都懂，这个Ad在上面的图中就是那个Candidate Ad,就代表着准备要给用户看的item的特征，User profile features 代表着用户的特征，但这些特征通常是比较粗糙的，比如性别啊年龄啊什么的，Context Features是跟场景有关的特征，通常就是时间戳之类的，要重点说的是User Behaviors,代表着用户行为特征，主要就是过去用户明确表示感兴趣的item统统都打包起来，我们看一个人不是看他说什么，是看他做什么，所以这些特征要重点关照。在Base Model里，这些用户行为特征在映射成embedding后直接一个无聊的sum/average pooling就算完事了,结果就是我之前说的一个静态的embedding无法表征一个用户广泛的兴趣，所以我在Deep Interest Network中考虑加入Activation Unit，每个曾经的用户行为都跟Candidate Ad交互，交互的方法在上图的右上角也给出了，交互呢会交互出一个权重，代表着曾经的一个用户行为与Candidate Ad的相关性，比如你曾经买过篮球，买过毛衣针，那眼下有一个哈登同款保温杯，那我们肯定是更关注你以前买篮球的行为，那你买篮球的行为映射出的一个embedding的权重就大，买毛衣针的行为映射出的一个embedding的权重就小。有了这个权重，我们就可以在所有用户行为特征映射成embedding后做weighted sum pooling了，这样，针对每个不同的 Candidate Ad，每个用户行为特征在映射成embedding后经过weighted sum pooling后就会生成一个汇总的不同的embedding，这就是动态的embedding，色彩斑斓的embedding！动态的embedding就能表征出用户广泛的兴趣了！你打篮球时是一个embedding，织毛衣又是另一个embedding，完美！”

插句题外话，DIN的这个思路是不是有些像FFM（链接已经附于最上面）里的每个特征都对应多个隐向量？与不同的特征交互时使用不同的隐向量？那上面DIN中与每个不同的Candidate Ad交互，不就相当于与不同的特征交互，对应地使用不同的embedding？只是FFM里每个隐向量都需要单独计算出来，而这里只需要计算权重调整embedding,省了不少事。

“另外，鉴于我把每个用户曾经感兴趣的item统统打包成用户行为特征了，这么一来，特征确实有些多，有时可能会到几亿个吧，特征多对应所需的参数就多，参数一多，过拟合的风险就大，模型也很难训练，我再教教你们，我在训练DIN的时候引入了两种技巧， Mini-batch Aware Regularization以及Data Adaptive Activation Function，都是训练方面的技巧啦，我就不多说了！好啦，你们还有什么问题么？”

DeepFM和Wide&deep惭愧地低下了头，准备默默地离开。

“站住！其实，我还有更好的！”阿里缓缓地说道。

下一篇，DIEN！
DIEN