DIN算法介绍

参考文献
Deep Interest Network for Click-Through Rate Prediction

前情提要
FFM
Wide & Deep
DeepFM

DIN,全名Deep Interest Network,中文名深度兴趣网络,经过之前的介绍,想必大家对Deep已经不陌生了,那这里在Deep里还加了个Interest,显得非常Interesting,那这具体是指什么呢?

“我不管什么低阶特征交叉,高阶特征交叉!我只想说,你们全错了!我不是针对谁,我是说在座的各位!首先,你们模型不管怎么花里胡哨,最终总能简化成如下图所示。"阿里缓缓说道。

在这里插入图片描述
“不对,我还有FM部分”,“不对,我还有wide部分”DeepFM,Wide&deep纷纷嚷道。

“闭嘴,这不是重点!重点是你们都使用了embedding(那个隐向量也是embedding的一种)!号称万物皆可embedding!你们对天使用embedding,对地使用embedding,那也就算了,只是你怎么能忍心对你们的用户也使用embedding呢?每个人都是折翼的天使,都是不一样的烟火,能简简单单地用一个embedding代表一个人么?你们觉得用多少维度的embedding就可以代表你们那宛如少女一样可爱的用户呢?少了我觉得不合适吧,毕竟当下的时代,谁还不是个小公主小王子呢,每个人都兴趣广泛,一个人可以同时喜欢打篮球,织毛衣,或喜欢一边打篮球一边织毛衣,维度较低的embedding怎么可能表示得了这么多的爱好呢?那你说弄个大维度的embedding,可以倒是可以,只是你们训练得过来么?那你们问我怎么办?简单,来个色彩斑斓的embedding!或者说是动态的embedding!如下图所示。”
在这里插入图片描述
“看着就色彩斑斓有木有!我来勉为其难地跟你们解释下,比起在上面的毫无特色的Base Model,我的这个Deep Interest Network多了些叫Activation Unit的东西。话说回来,你们说的那什么DeepFM,Wide&deep是主要用在CTR领域的,说明下CTR,顺便解释下上面的图,所谓的CTR,主要就是说针对一个用户,我们扔个item过去,需要判断这个用户对这个item的兴趣程度,兴趣大他们才会点击,那这个item也可以是Ad,就是广告,大家都要恰饭的都懂,这个Ad在上面的图中就是那个Candidate Ad,就代表着准备要给用户看的item的特征,User profile features 代表着用户的特征,但这些特征通常是比较粗糙的,比如性别啊年龄啊什么的,Context Features是跟场景有关的特征,通常就是时间戳之类的,要重点说的是User Behaviors,代表着用户行为特征,主要就是过去用户明确表示感兴趣的item统统都打包起来,我们看一个人不是看他说什么,是看他做什么,所以这些特征要重点关照。在Base Model里,这些用户行为特征在映射成embedding后直接一个无聊的sum/average pooling就算完事了,结果就是我之前说的一个静态的embedding无法表征一个用户广泛的兴趣,所以我在Deep Interest Network中考虑加入Activation Unit,每个曾经的用户行为都跟Candidate Ad交互,交互的方法在上图的右上角也给出了,交互呢会交互出一个权重,代表着曾经的一个用户行为与Candidate Ad的相关性,比如你曾经买过篮球,买过毛衣针,那眼下有一个哈登同款保温杯,那我们肯定是更关注你以前买篮球的行为,那你买篮球的行为映射出的一个embedding的权重就大,买毛衣针的行为映射出的一个embedding的权重就小。有了这个权重,我们就可以在所有用户行为特征映射成embedding后做weighted sum pooling了,这样,针对每个不同的 Candidate Ad,每个用户行为特征在映射成embedding后经过weighted sum pooling后就会生成一个汇总的不同的embedding,这就是动态的embedding,色彩斑斓的embedding!动态的embedding就能表征出用户广泛的兴趣了!你打篮球时是一个embedding,织毛衣又是另一个embedding,完美!”

插句题外话,DIN的这个思路是不是有些像FFM(链接已经附于最上面)里的每个特征都对应多个隐向量?与不同的特征交互时使用不同的隐向量?那上面DIN中与每个不同的Candidate Ad交互,不就相当于与不同的特征交互,对应地使用不同的embedding?只是FFM里每个隐向量都需要单独计算出来,而这里只需要计算权重调整embedding,省了不少事。

“另外,鉴于我把每个用户曾经感兴趣的item统统打包成用户行为特征了,这么一来,特征确实有些多,有时可能会到几亿个吧,特征多对应所需的参数就多,参数一多,过拟合的风险就大,模型也很难训练,我再教教你们,我在训练DIN的时候引入了两种技巧, Mini-batch Aware Regularization以及Data Adaptive Activation Function,都是训练方面的技巧啦,我就不多说了!好啦,你们还有什么问题么?”

DeepFM和Wide&deep惭愧地低下了头,准备默默地离开。

“站住!其实,我还有更好的!”阿里缓缓地说道。

下一篇,DIEN!
DIEN

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值