![](https://img-blog.csdnimg.cn/20200617180051379.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
深度学习
deep learning study
肯德基套餐
这个作者很懒,什么都没留下…
展开
-
NCF(Neural Collaborative Filtering)——协同过滤与神经网络的结合
Neural Collaborative Filtering paper关于协同过滤协同过滤简而言之就是物以类聚人以群分,在真实场景中,通常会获得一张用户物品交互表,其实就是一个矩阵M,M[i][j]=1M[i][j]=1M[i][j]=1则表示用户iii购买了物品jjj,=0=0=0表示没有购买。主要分为以下两种:user-based协同过滤...原创 2020-06-13 20:29:39 · 2537 阅读 · 1 评论 -
NFM——引入pooling和NN的FM
Neural Factorization Machines for Sparse Predictive Analytics paper解决痛点NFM可以看做是主要针对FM和FNN的改进,他们缺点如下FM模型虽然学习到了交叉特征,但是对于交叉后的特征仍然是线性建模,学习不到非线性的关系FNN模型虽然在底层用的FM进行向量初始化,在上层使用DNN来学习到高阶非线性特征,但是单个特征embedding后通过拼接(concatenating),然后在后续的DNN结构中学习到交叉特征(deep& w原创 2020-06-04 17:16:53 · 1047 阅读 · 0 评论 -
端到端的高低阶特征学习——DeepFM模型
解决痛点DeepFM模型对比了FNN、PNN、Deep&wide,在其缺点上进行了改进,得到了DeepFM模型。这三种模型的结构如上图所示,其不足分别如下:FNN缺点如下:FNN底层通过为FM预训练得到向量,预训练有两个缺点:(1)FNN embedding矩阵的参数会受到预训练结果的影响(2)预训练的引入使得模型的效率降低FNN只能学到高阶特征组合,学习不到低阶特征PNN无法学些到低阶特征(可以理解为输入直接过了若干层网络,只学习到了高阶组合)deep&wi原创 2020-05-29 15:12:57 · 1593 阅读 · 2 评论 -
FM与DNN的组合——FNN模型
origin paper: https://arxiv.org/pdf/1601.02376.pdf解决痛点特征学习和模型泛化的能力有限。网络结构top-down视角CTR层y^=sigmoid(W3l2+b3)\hat{y}=\operatorname{sigmoid}\left(\boldsymbol{W}_{3} \boldsymbol{l}_{2}+b_{3}\right)y^=sigmoid(W3l2+b3)W3∈R1×L,b3∈R and l2∈RL原创 2020-05-28 14:03:11 · 1573 阅读 · 0 评论 -
利用product解决特征交叉问题——PNN模型
解决痛点传统模型: (应该指的是逻辑回归这种)挖掘特征的能力有限,比如无法挖掘到二阶特征深度网络模型: 无法应用到大规模高维稀疏特征上。所以提出了PNN模型,该模型先用embedding层学习到类别特征的表达形式,再用一个乘积层学习到不同特征间的交叉信息,最后用全连接层学习到更高阶的特征表达。网络结构从一个top-to-down的视角来看:最顶层最上面一层是一个CTR的输出y^=σ(W3l2+b3)\hat{y}=\sigma\left(\boldsymbol{W}_{3} \boldsy原创 2020-05-27 15:10:34 · 858 阅读 · 0 评论 -
谷歌CTR预估模型——deep&cross(DCN)
提出动机解决交叉特征学习问题,虽然传统的FM模型可以学习到二阶交叉特征,对于高阶交叉特征,需要大量的参数,在deep&wide模型,wide部分需要手动进行特征工程,deep&cross模型在wide部分实现了自动生成高阶交叉特征,并使用了resnet的形式。网络形式经过公共的embedding和stacking层,左边为cross network,右边为deep network。Embedding and stacking layer该层对特征进行拼接成input,对于Dens原创 2020-05-13 17:02:41 · 552 阅读 · 0 评论 -
自动特征组合——微软deep crossing模型
提出动机deep crossing是微软bing ad团队提出的,用来解决大规模特征组合问题的模型,避免了人工进行特征组合,并使用了当年提出的残差神经网络。模型主要结构如下(搞不懂这图为啥画的这么随意)。主要分为embedding layer,stacking layer,residual unit 和scoring layer。deep crossing模型中输入的部分用得是原始的单个特征,不进行手动特征组合,完全靠模型自己去学。Embedding layer对于sparse特征x,通过emb原创 2020-05-12 19:33:21 · 1662 阅读 · 0 评论 -
深度残差网络ResNet
paper https://arxiv.org/pdf/1512.03385.pdf提出动机ResNet是为了解决深度神经网络中由于层数过多带来的模型退化问题(degradation)。一般情况下,模型退化主要有以下几种原因:过拟合,层数越多,参数越复杂,泛化能力弱梯度消失/梯度爆炸,层数过多,梯度反向传播时由于链式求导连乘使得梯度过大或者过小,使得梯度出现消失/爆炸,对于这种情况,可以通过BN(batch normalization)可以解决由深度网络带来的退化问题,一般情况下,网络层数越深原创 2020-05-11 21:17:58 · 1153 阅读 · 0 评论 -
NNLM(Neural Network Language Model)模型
论文链接定义词汇表VVV,w1⋯wTw_{1} \cdots w_{T}w1⋯wT表述词汇表中的单词目标函数,f(wt,⋯ ,wt−n+1)=P^(wt∣w1n−1)f\left(w_{t}, \cdots, w_{t-n+1}\right)=\hat{P}\left(w_{t} | w_{1}^{n-1}\right)f(wt,⋯,wt−n+1)=P^(wt∣w1n−1),即...原创 2020-04-30 19:12:57 · 544 阅读 · 0 评论 -
doc2vec模型
Distributed Representations of Sentences and Documents该论文提出了一种训练段落向量的方法。(一) 提出动机已经有比较优秀的模型可以很好的生成词向量,但是对于生成句子或者段落的向量,目前还没有比较好将单词向量变为句子向量的方法,常见的方法以及缺点如下:bag of words: 缺乏顺序性和语义性average word vector...原创 2020-04-28 22:29:56 · 802 阅读 · 0 评论 -
AutoRec模型
论文原文利用自编码器做协同过滤,协同过滤主要有如下两种情景user-based:userA和userB臭味相投,那么A喜欢看的电影可以推荐给Bitem-based: movieX和movieY比较相似,那么用喜欢看movieX,那么可以将movieY也推荐给他Rating matrix比如在电影推荐场景中,用户对电影(item)的打分可以构成一个R∈Rm×nR \in \mathb...原创 2020-04-27 17:41:41 · 1145 阅读 · 0 评论 -
Deep & Wide模型
(一)CTR预估基本模式对于用于的一次访问请求,比如打开App Store,这即是一次请求,系统会通过召回和排序给你推荐一些可能感兴趣的App。召回和排序也称为粗排和精排。Retrieval召回部分主要是从App集合中粗粒度的选出一些可能会被下载的软件,应为App集合数量过于庞大,直接精排会差生效率上的问题。首先根据一些自定义的rule做预处筛选。Ranking排序即对于召回模块提供的A...原创 2020-04-27 01:49:54 · 719 阅读 · 1 评论 -
FM(Factorization Machines)因子分解机模型
提出动机FM模型主要解决的是系数数据下组合特征权重学习的问题。以下图为例,场景是用户对电影打分的预测,每行表示一条样本,对于x数据,可分为五个部分,分别用户ID、待打分的电影名、该用户对各个电影的历史打分(归一化)、时间信息、上次打分的电影,y表示对电影的打分,可以看到用User、Movie、Last Move rated都是one-hot的形式,非常稀疏。现在每一列xix_{i}xi都...原创 2020-04-21 22:04:53 · 778 阅读 · 0 评论 -
FFM(Field-aware Factorization Machines)模型
提出动机FFM模型是在FM模型的基础上提出的,FM的假设函数如下所示:y^(x):=w0+∑i=1nwixi+∑i=1n∑j=i+1n⟨vi,vj⟩xixj\hat{y}(\mathbf{x}):=w_{0}+\sum_{i=1}^{n} w_{i} x_{i}+\sum_{i=1}^{n} \sum_{j=i+1}^{n}\left\langle\mathbf{v}_{i}, \mathbf...原创 2020-04-22 14:52:17 · 483 阅读 · 0 评论 -
MLR(mixed logistic regression)模型
基本形式MLR模型是阿里巴巴12年提出(17年发表)点击率预估模型,它利用分段方式对数据进行拟合,相比LR模型,能够学习到更高阶的特征组合。其基本表达式如下p(y=1∣x)=g(∑j=1mσ(ujTx)η(wjTx))(1)p(y=1 | x)=g\left(\sum_{j=1}^{m} \sigma\left(u_{j}^{T} x\right) \eta\left(w_{j}^{T} x...原创 2020-04-26 02:14:44 · 6749 阅读 · 0 评论 -
softmax与交叉熵损失
softmax基本形式softmax是一个将实数域上取值的N维向量转化为[0,1]范围内的函数,常用用于分类问题中,接在神经网络最后一层,将输出值映射到概率区间上,其基本形式如下所示pi=eai∑k=1Neak(1)p_{i}=\frac{e^{a_{i}}}{\sum_{k=1}^{N} e^{a_{k}}} \qquad(1)pi=∑k=1Neakeai(1)基本形式优化...原创 2020-04-25 16:44:58 · 403 阅读 · 0 评论