论文阅读
文章平均质量分 88
夏末的初雪
知乎id: 迷路森林
展开
-
Attention based models
Attention mechanism在深度学习中就像是万金油般的存在,涉及领域广泛,深受练丹师的喜爱。推荐一篇综述 -> An Attentive Survey of Attention Models我会大体介绍attention发展过程中几篇经典的paper,从机器翻译领域萌芽再到各个领域遍地开花.Neural Machine Translation by Jointly L...原创 2020-05-08 10:57:10 · 624 阅读 · 0 评论 -
GCN 论文英语表达总结
!猫在家里看论文,写论文的日子真爽!我常常自嘲自己的英文写的很像老太太的裹脚布,又臭又长!主要是将一些GCN的英文表达方式记录下来,收藏起来慢慢学习!会给出论文题目,还有一些小小的note整合图神经网络的英文表达Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Ne...原创 2020-04-05 12:27:31 · 998 阅读 · 2 评论 -
GPT : Improving Language Understanding by Generative Pre-Training
参考论文:Improving Language Understanding by Generative Pre-Training论文链接:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf这篇论文是基于文...原创 2019-08-16 11:37:33 · 7494 阅读 · 0 评论 -
Layer Normalization
在学习Layer Normalization之前建议大家先自行学习Batch Normalization.鉴于BN存在一些问题,LayerNormalzation才得以提出,并且LayerNormalization可以直接应用于recurrent neural networks,并且也解决了BN当batch size=1不能进行在线学习,在线预测的问题。layer normalizatio...原创 2019-08-01 10:59:30 · 941 阅读 · 0 评论 -
Universal Language Model Fine-tuning for Text Classification
参考论文:Universal Language Model Fine-tuning for Text Classification 迁移学习最早是应用于机器视觉方向的,迁移学习是从general到specific的过程,在general过程中在大型语料库中进行预训练(pre-training),在specific过程中在specific task领域中进行微调(fine-tunn...原创 2019-04-14 18:58:11 · 796 阅读 · 0 评论 -
Batch Normation
之前花费了比较长的时间在论文阅读上,导致最近的博客都没有产出~~参考论文:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift可以理解为对深层神经网络每个隐层神经元的激活值做简化版本的白化操作为什么要提出Batch Normation1. 深度网络的训...原创 2019-04-06 11:52:15 · 754 阅读 · 0 评论 -
Netural Machine Translation By Joinly Learning To Align And Translate
参考论文:Netural Machine Translation By Joinly Learning To Align And Translate这篇论文应该是attention系列论文的鼻祖论文了, 引用量已经超多了吧!背景机器翻译方面的模型一般都会采用encoder-decoder的框架,对source sentence 编码成固定长度的vector,这个vector作为deco...原创 2018-09-02 00:25:41 · 483 阅读 · 0 评论 -
Attention Is All You Need
参考论文:Attention is all you need这篇论文超火的, 楼楼也过来凑个热闹。背景:主流的Seq-Seq的模型通常采用RNN或者是CNN,一般在网络结构中都会用到encoder和decoder, 效果比较好的模型会通过attention(注意力机制)连接encoder和decoder。但是这种网络结构也存在一些问题:1. RNN网络结构: 递归框架...原创 2018-08-26 20:00:40 · 14434 阅读 · 7 评论 -
基于点击图模型Query和Document相关性的计算
参考论文:Learning Query and Document Relevance from a Web-scale Click Graph背景:用户的点击日志蕴含丰富的信息,在信息检索领域具有着重要的地位。用户点击行为数据通常用来生成训练数据用户机器学习提高ranking performance,或者是在ranking fuction中作为特征来计算ranking score.但是点击数据存在...原创 2018-06-03 20:49:07 · 3480 阅读 · 4 评论 -
BPR:个性化排名推荐系统
BPR 推荐模型基于贝叶斯理论在先验知识下极大化后验概率,实现从一个用户-项目矩阵训练出多个矩阵,且一个矩阵表示一个用户的项目偏好情况。目前比较主流的推荐系统模型k近邻的协同过滤:传统的相似矩阵的计算会根据启发式的计算方法,比如皮尔逊相关系数,但是近些年研究,相似矩阵作为模型参数并且根据大量数据训练得出。矩阵分解:矩阵分解在显式反馈和隐式反馈中都是推荐系统中很热门的方法。在近些年研究中,奇异值分解(原创 2017-10-10 21:15:24 · 20334 阅读 · 10 评论 -
基于矩阵分解的推荐系统
关于矩阵分解矩阵分解活跃在推荐领域,基于SVD的推荐系统也是矩阵分解的一种。给定一个用户评分表,通常这个是个很大的矩阵,m行n列,m代表用户的个数,n代表项目的个数。并且这个矩阵在实际情况中是非常稀疏的,用户只能评价少部分的项目,因而矩阵中会存在很多?,用户并没有对对应的项目打分或者是评价过,所以我们很难对了解用户对相应项目的偏好情况。 而我们推荐矩阵分解就是希望能通过用户已有的评分来预测用户原创 2017-10-17 10:17:16 · 12853 阅读 · 0 评论 -
基于协同过滤的SVD的推荐系统
参考论文:Using Singular Value Decomposition Approximation For Collaborative Filtering 背景:m-n矩阵是一个打分矩阵,m是用户的数量,n为项目的数量,Ai,j表示用户i对项目j的评分情况。矩阵A一般存在两个问题。 1> 矩阵A通常非常的庞大,m、n可能有上百万或者是上亿的数量级 2> 矩阵A是一个非常稀疏的矩阵 所以原创 2017-10-20 15:44:27 · 9995 阅读 · 0 评论 -
关于词向量
参考论文:Efficient Estimation of Word Representations in Vector SpaceOne-hot Represention在深度学习没有如此如火如荼之前,语言模型的建立依靠的一般还是SVM,CRF等算法,为了将自然语言符号、数值化,One-hot Represention 成为了当时不错简单粗暴的词向量表示方法。 每个词原创 2017-12-01 14:13:36 · 1846 阅读 · 0 评论