从tensorflow的文档找到的论文,没几页,看上去也不复杂,赶紧弄下来看看。
场景是Google Play的推荐
wide & deeplearning是什么鬼?
- wide是指高维特征+特征组合的LR。LR高效、容易规模化(scalable)、可解释性强。但是泛化性需要在特征工程上下功夫
- deep就是deep learning了。特征工程省力,但是容易过度泛化over-generalize。
Memorization 和Generalization
文中提了两个观点,有点意思。Memorization 和Generalization。
- Memorization 。从现有的训练数据item或者特征的共现或者相关性。局部性(topical),跟用户有行为的item直接强相关。
- Generalization。相关性的传递(transitivity),新特征组合。多样性(diversity)好一些。
有点类似I2i里的item-base方法效果好,user-base的方法新颖性好。
我自己之前的观点是机器学习某种程度上来说就是找“相似”,这种相似有时候比较直接(Memorization),有时候比较间接(Generalization)。意思其实差不多啦。
回顾LR和DL的问题
先介绍现有LR方法,特征通通0/1编码,然后做特征组合。老套路了,基本都这样。有个问题就是特征组合如果训练数据里面没有&#