推荐系统详解（七）深度学习

最新推荐文章于 2024-09-06 15:56:26 发布

ziqiiii

最新推荐文章于 2024-09-06 15:56:26 发布

阅读量1k

点赞数 1

分类专栏：推荐系统

本文链接：https://blog.csdn.net/qq_20417499/article/details/105984743

版权

本文介绍了深度学习在推荐系统中的应用，包括各种2vec技术，如Word2vec、Sentence2vec和Doc2vec，以及YouTube视频推荐中如何使用深度学习。此外，文章还探讨了循环神经网络（RNN）在构建个性化音乐播单中的应用，强调了时间序列在推荐系统中的重要性。

摘要由CSDN通过智能技术生成

深度学习在推荐系统中的应用有哪些?

时至今日，深度学习已经不是一个新名词了，由于它的出现，计算机视觉、自然语言理解等领域的从业者都过上了好日子，错误率大幅度降低。尤其是那些不断号称端到端的建模方式，让还在埋头于特征工程的推荐系统从业者们跃跃欲试，想赶紧引入深度学习大显身手。经过这些年学界和业界的不断尝试，深度学习在推荐系统中已经有了很多成功的应用。所以我在这个专栏里面理应本着实用落地的原则给你介绍一下，到底深度学习在推荐系统中有些什么应用，以及到底是怎么回事？

深度学习与推荐系统

深度学习也就是深度神经网络，并不是一个全新的概念，而是枯木逢春；所以它才能在计算力成本下降、效率提升、数据量陡增的今天得以焕发光彩，原来的浅层模型可以逐渐深入，挖掘出事物背后的更多规律和特征。因此，深度学习的原理在这里并不做过多涉及，如果需要了解，你可以去专攻一下深度学习。我在这里仅仅用简单的语言力图消除一些概念上的陌生感，在有了一些直观的认识后，直接进入到应用阶段，看看它可以帮助你做什么事。你还记得矩阵分解吗？矩阵分解是把原来用户和物品之间的大矩阵，分解成了两个小矩阵相乘。这两个小矩阵小在哪？原始的矩阵中，表示每个用户的向量是物品，表示每个物品的向量是用户，两者向量的维度都特别高不说，还特别稀疏，分解后用户向量和物品向量不但维度变得特别小，而且变稠密了。业界还把这个稠密的向量叫做隐因子，意图直观说明它的物理意义：用户背后的偏好因子，物品背后的主题因子。实际上，你完全可以把矩阵分解看成是一种浅层神经网络，只有一层，它的示意图如下。

这个示意图表示了一个用户 Ui，评分过的物品有 I2 和 I4，分解后的矩阵隐因子数量是 2，用户 Ui 的隐因子向量就是[w1, w2]，物品 I2 的隐因子向量是[w3, w5]，物品 I4 的隐因子向量是[w4, w6]。可以把矩阵分解看成是一个拥有一个隐藏层的神经网络，得到的隐因子向量就是神经网络的连接权重参数。在前面的专栏中，我第一次提到深度学习时，还建议你把逻辑回归看成一个没有隐藏层的神经网络。因此，深度学习，也就是深度神经网络并不是那么神秘，只是深。这个“深”代表了事物的某些本质属性。这种对本质属性的挖掘，有两个好处。

1. 可以更加高效且真实地反映出事物本身的样子。对比一下，一张图片用原始的像素点表示，不但占用空间大，而且还不能反应图片更高级的特征，如线条、明暗、色彩，而后者则可以通过一系列的卷积网络学习而得。

2. 可以更加高效真实地反映出用户和物品之间的连接。对比一下，以用户历史点击过的物品作为向量表示用户兴趣；用这些物品背后隐藏的因子表示用户兴趣，显然后者更高效更真实，因为它还考虑了物品本身的相似性，这些信息都压缩到隐因子向量中了，同时再得到物品的隐因子向量，就可以更加直接平滑地算出用户对物品的偏好程度。

这两个好处，正是深度学习可以帮助推荐系统的地方。第一个叫做 Embedding，就是嵌入，第二个叫做 Predicting，就是预测。

其实两者我在前面的内容都已经有涉及了，矩阵分解得到的隐因子向量就是一种 Embedding，Word2vec 也是一种 Embedding，Wide&Deep 则是用来预测的。关于第二种，具体来说有几个方向：深度神经网络的 CTR 预估，深度协同过滤，对时间序列的深度模型。

下面逐一带你认识。首先就是深度学习的第一种应用。

各种 2vec

你还记得在内容推荐那一章里，我跟你提到过，对内容的挖掘怎么深入都不为过，越深入越好，很多时候甚至优于对排序模型的优化。那里提到了 Word2vec，用于学习词嵌入向量。当把一个词表示成一个稠密的向量后，就可以计算词的相似度，进而可以计算句子的相似度，也可以直接把这个稠密向量作为特征输入给高级的预测模型。于是，这个 2vec 的思想，就被发扬光大了。首先还是在文本领域，从 Word2vec 到 Sentence2vec，再到 Doc2vec。其实思想都类似甚至会让你觉得有上当受骗的错觉。简单介绍一下 Word2vec。你知道，Word2Vec 最终是每个词都得到一个稠密向量，十分类似矩阵分解得到的隐因子向量，得到这个向量有两个训练方法。

先说第一