深度学习
hellozgy
这个作者很懒,什么都没留下…
展开
-
对比学习论文汇总
这里写自定义目录标题1、SimCSE: Simple Contrastive Learning of Sentence Embeddings1、SimCSE: Simple Contrastive Learning of Sentence Embeddings论文:https://arxiv.org/pdf/2104.08821.pdfcode: https://github.com/princeton-nlp/SimCSE思想:...原创 2021-08-19 11:40:59 · 256 阅读 · 0 评论 -
经典推荐算法
一、DIN论文:Deep Interest Network for Click-Through Rate Prediction作者:阿里妈妈1、贡献任务可以抽象为分类问题,输入是用户历史行为数据(点击,加入购物车等行为)和待预测商品,输出是用户点击该商品的概率。利用了用户兴趣多样性以及当前候选商品仅与用户一部分兴趣有关这一特点,引入了attention机制。工程优化上,引入了GAUC度量指标、Dice激活函数、自适应正则技术2、模型如下,右边就是DIN网络(深度兴趣网络),base 方案原创 2021-07-01 11:04:51 · 417 阅读 · 0 评论 -
激活函数
一、gelu论文:Gaussian Error Linear Units (GELUs)公式:f(x) = xΦ(x)其中Φ(x)表示高斯分布函数(是面积,不是概率密度),这样写是因为一般模型的参数是符合正太分布的,这样越小的参数越可能被dropout掉实际使用时的近似公式(bert):tf代码: 0.5x * (1.0 + tf.tanh((np.sqrt(2 / np.pi) * (x + 0.044715 * tf.pow(x, 3)))))原理解释:引入非线性,该激活函数是根据输入值原创 2021-04-09 12:45:33 · 157 阅读 · 0 评论 -
预训练模型
一、bert论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding代码:https://github.com/google-research/bert作者:google1、贡献提出一种双向语言模型,基于该预训练模型finetune后在各下游任务取得sota效果。模型结构图如下,包括两个任务,一个是MLM(mask language model),另一个是NSP任务(next sente原创 2021-04-09 11:44:47 · 5320 阅读 · 1 评论 -
MSE Loss,MAE Loss, 交叉熵 Loss的统计意义
MSE loss和MAE Loss经常用在回归问题。对于MSE Loss,如果相同的样本存在不同的label值(比如同一句话在不同场景下满意度可能是不同的),当预测值取这些样本label的平均值时,loss最小。这可以通过对loss对导数得到。对于MAE Loss,这是统计学中的『最小一乘线性回归』问题,如果相同的样本存在不同的label值,那么预测值取这些样本的label的中位数时候,loss最小。可以假定loss最小时,预测值 不是中位数,证明这个时候loss比中位数的loss大就行。对于交叉熵原创 2020-12-25 20:25:12 · 8200 阅读 · 1 评论 -
文本分类:[google]PRADO: Projection Attention Networks for Document Classification On-Device
可以参考对textcnn的改进点:每个kernel使用两只cnn,其中一只作为softmax计算另一支的attention,取代textcnn的max-pool原创 2020-10-24 18:20:55 · 306 阅读 · 0 评论 -
深度特征工程:[google]DCN-M: Improved Deep & Cross Network for Feature Cross Learning in Web-scale Learning
参考:https://mp.weixin.qq.com/s/0qidwbxyfTkODTw2DIiRWw代码1、贡献DNN在特征交叉学习上比较低效,DCN[1]可以高效的学习高阶的特征交叉,本文在DCN的基础上,提出一种改良版的DCN-M模型。2、回顾DCN的结构图中输入包括连续特征和向量, 模型分两支,一是DNN模型,一是Cross Net,最终两者的输出concat一起经过FFN输出。CrossNet的公式如下:公式的矩阵显示是:式中w和b都是d维向量,因此每增加一层增加2d个参数原创 2020-10-21 11:51:17 · 718 阅读 · 0 评论 -
多任务学习:Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized
出处:[腾讯]RecSys2020最佳长论文参考:https://mp.weixin.qq.com/s/IEtlu2AhvwI-W6lZY1j4NQ论文贡献论文对多任务学习方向,多个任务在NN模型中的架构形式做了探索。具体分为单层和多层两种结构,单层的几种结构如下:...原创 2020-10-14 11:01:27 · 5946 阅读 · 0 评论 -
《Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms》
出处: ACL20181. 贡献本文提出在词向量上进行简单的池化操作在文本分类/匹配任务上就可以得到跟CNN/RNN相当的效果。2. 方案1) SWEM-aver:整个句子的信息)2)SWEM-max:突出特征)3)拼接SWEM-aver和SWEM-max4 SWEM-hier(层次化)最大和平均池化没有考虑词序,这里引入层次化pooling。先作固定窗口的平均pooling,得到k个向量,然后对这k个向量做max-pooling。3. 解释SWEM-max和glove的各个纬度原创 2020-06-02 10:58:12 · 162 阅读 · 0 评论 -
《Dynamic routing between capsules》
paper:《Dynamic routing between capsules》出处: NIPS 2017作者:Hinton一、摘要原创 2020-02-22 21:08:50 · 605 阅读 · 0 评论 -
tensorflow知识点
expand_dims(tensor, dim=2) # 扩展纬度原创 2019-11-28 16:57:37 · 294 阅读 · 0 评论 -
语言模型和ppl
语言模型的ppl计算公式:原创 2018-07-26 17:44:39 · 6830 阅读 · 0 评论 -
三种Attention
三种Attention的公式:原创 2018-04-06 11:06:38 · 1245 阅读 · 0 评论 -
防止过拟合的方法
Early stopping数据增强正则化方法(L1、L2)Dropout原创 2018-03-30 21:08:24 · 325 阅读 · 0 评论 -
正则
1.为什么L2不稀疏:理解一:稀疏则表示在0点处于最小值,而L2的导数在-0那里基本不为0。因为L2项在0点处导数是0, 所以如果原来的损失函数在0点处倒数不为0,那么正则后的损失函数在0点处的导数就不为0。而施加 L1 regularization 时,只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值,x = 0 就会变成一个极小值点。理解二:2.L1...原创 2018-03-30 19:45:00 · 213 阅读 · 0 评论 -
BPTT推导及RNN梯度消失和梯度爆炸的原因
原创 2018-03-30 19:26:17 · 1208 阅读 · 0 评论