Wide & deep Model:从Google到华为

本文深入探讨了Google提出的Wide & Deep Learning模型及其在推荐系统中的应用,强调了模型的wide部分用于记忆历史交互,而deep部分用于提高泛化能力。华为的DeepFM进一步创新,通过共享参数简化特征工程。实验表明,DeepFM在CTR预测上的表现优于其他模型。
摘要由CSDN通过智能技术生成

在之前的一篇博客基于深度学习的推荐系统(二)MLP based中,我简单地提到了wide&deep model。在这里,我将这一模型单独拿出来加以讲述,因为这个模型是很多工业界推荐系统的根基。从Google在2016年发表这篇文章开始,越来越多的公司开始使用wide&deep model和它的变种。其中,华为提出的DeepFM是一个较为典型的变种,之前也提到过一些,我也会在这篇文章中加以讲述。

Wide & Deep Learning for Recommender Systems

Wide & Deep Learning for Recommender Systems是Google在2016年发表的文章。这篇文章一共只有4页,非常非常短,但是其内容产生了巨大的影响。文章大意如下:

使用非线性特征变换的广义线性模型被广泛用于具有稀疏输入的大规模回归和分类问题。通过一系列特征转换,我们可以完成历史交互的memorization(记忆),用这些特征建立的广义线性模型是有效且可解释的。但如果要提升这类模型的泛化(generalization)性能,需要很多的特征工程工作。深度神经网络可以通过针对稀疏特征学习的低维密集嵌入更好地推广到看不见的特征组合,因此需要较少的特征工程。但是当交互信息较少时,它会overfit,学习到一些本来不存在的关联。我们把前者称为wide,后者称为deep,把这两者组合起来,就得到了wide&deep model。

其实我个人认为文中关于memorization和generalization的定义和我们常用的不太一样,所以为了方便起见,我把原文定义在这里写一遍:

One challenge in recommender systems, similar to the general search ranking problem, is to achieve both memorization and generalization. Memorization can be loosely defined as learning the frequent co-occurrence of items or features and exploiting the correlation available in the historical data. Generalization, on the other hand, is based on transitivity of correlation and explores new feature combinations that have never or rarely occurred in the past. Recommendations based on memorization are usually more topical and directly relevant to the items on which users have already performed actions. Compared with memorization, generalization tends to improve the diversity of the recommended items.

所谓wide model,是指logistic regression等使用人工特征的模型,这些模型尤其常用one-hot编码。这些模型简单可解释,但无法对未在训练集中出现的feature建模。所谓deep model,是指embedding-based models,包括FM和深度神经网络。它们能从稀疏数据中学习到稠密的feature embedding,但如果输入矩阵是稀疏但高秩的,它就可能学习出很多并不存在的关联。

wide部分的表达式为 y = W w i d e T { x , ϕ ( x ) } + b y = W^T_{wide}\{x, \phi(x)\} + b y=WwideT{ x,ϕ(x)}+b,其中 w w w是参数, x x x是特征工程引入的input feature, ϕ ( x ) \phi(x) ϕ(x)是这些feature被转换后的形式,最常见的转换为cross-product transformation,定义为 ϕ k ( x ) = ∏ i = 1 d x i c k i , c k i ∈ { 0 , 1 } \phi_k(x) = \prod_{i=1}^{d}x_i^{c_{ki}}, c_{ki} \in \{0, 1\}

Python网络爬虫与推荐算法新闻推荐平台:网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值