机器学习与自然语言处理
文章平均质量分 73
haimizhao
这个作者很懒,什么都没留下…
展开
-
字子序列中英翻译模型(五笔特征)
文章:Wei Zhang, etc. Subcharacter Chinese-English Neural Machine Translation with Wubi encoding主要思想:将五笔作为中文字模型特征用于翻译模型背景:有人使用了词子序列(sub-word)作为基本单位,用以规避典外词汇(Out Of Vocabulary, OOV)带来的问题,缩小了词表,并取得了良好的效果。五笔曾在其他文章中作为特征加入到翻译模型中,取得了优于字模型(character-level models)的原创 2020-07-30 14:34:04 · 403 阅读 · 0 评论 -
中文书写错误检测混合序列模型
中文书写错误检测混合序列模型文章:Hao Wang, etc. Chinese Spelling Error Detection Using a Fusion Lattice LSTM. 2019首先Spelling Error一般指的是英文的拼写错误,其实用在中文上不完全合适,因为中文是方块文字,错误有可能是拼音拼写导致的,也有可能拼写正确,但候选词选择错误,所以翻成输入错误会比较恰当。摘要:在于过去的中文输入错误一般以字和词的信息,没有把拼音加入其中,文章提出一种端到端混合模型FL-LSTM-CR原创 2020-07-28 11:43:23 · 382 阅读 · 0 评论 -
TextRank文档摘要
TextRank文档摘要思想:借用pagerank的思路,把词和句看成”顶点”,把他们的共现看成”边”,可以认为,存在共现关系,即可视为一种”推荐”,通过迭代,使得到更多推荐的节点取得更高的分值,用以提取关键词、关键句子。pagerank算法S(Vi)=(1−d)+d∑j∈In(Vj)1Out(Vj)S(Vj)S(Vi)=(1−d)+d∑j∈In(Vj)1Out(Vj)S(Vj)...原创 2018-06-28 20:23:09 · 869 阅读 · 0 评论 -
字符粒度表示用于词性标注
简述概括来讲,就是把单词的字符序列用CNN来提取特征,与预训练的word2vec一并,用于提升词性标注的效果文章全名:Learning Character-level Representations for Part-of-Speech Tagging字符特征字符特征的提取主要是考虑到字母的大小写、前后缀事实上是传统优化算法用于词性标注任务的重要特征,如果能恰如其分原创 2017-09-19 14:13:05 · 1019 阅读 · 0 评论 -
利用词向量计算实体上下位关系
利用词向量计算实体上下位关系转至元数据结尾转至元数据起始概括来讲,就是在词向量中存在king-man=queen-woman的关系,同样存在上下位关系,如 虾-对虾=鱼-金鱼,以此为基础,进行聚类,并引入线性变换,使变换后的向量能更好地拟合这类关系。与之前的方法相比,文章的方案具有更好的泛化能力,在召回上尤为突出。上下原创 2017-09-19 14:11:58 · 981 阅读 · 0 评论 -
噪声对比估计的神经语言模型
噪声对比估计的神经语言模型GAN、skip-gram都提到或用到了NCE(Noise Contrastive Estimation),在NLP领域首次应用NCE就是这篇文章了A fast and simple algorithm for training neural probabilistic language models简介以极大似然估计为目标原创 2017-09-19 14:11:14 · 2520 阅读 · 0 评论 -
用于相关性计算的深度语义模型(续)
简述概括来讲,就是把DSSM(见用于相关性计算的深度语义模型) 中的全连接层换成了CNN+Max Pooling,变成了CDSSM文章全名:A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval网络结构与DSSM一样,一个单词映射成ngram原创 2017-09-19 14:06:38 · 1461 阅读 · 0 评论 -
用于相关性计算的深度语义模型
用于相关性计算的深度语义模型转至元数据结尾转至元数据起始简述概括来讲,就是将有点击的Q-D对与无点的Q-D对做成对训练,最大化有点击对的条件概率P(D|Q),特征上把词转成字母序列的ngram,再进行深层映射。文章链接https://www.microsoft.com/en-us/research/wp-co原创 2017-09-19 14:05:39 · 1281 阅读 · 0 评论 -
翻译模型用于Query改写
简述总的来讲,就是将有点击的Query-Document(摘要)看成源语言和目标语言,用翻译模型计算二者的短语与短语之间的对齐关系,扩展Query的同时起到消歧的作用。文档名称:Query Rewriting using Monolingual Statistical Machine Translation技巧由于Query与文档之间,一般来讲并非严格对齐,需要对翻原创 2017-09-19 14:04:41 · 2515 阅读 · 0 评论 -
利用词向量计算上下位关系
概括来讲,就是在词向量中存在king-man=queen-woman的关系,同样存在上下位关系,如 虾-对虾=鱼-金鱼,以此为基础,进行聚类,并引入线性变换,使变换后的向量能更好地拟合这类关系。与之前的方法相比,文章的方案具有更好的泛化能力,在召回上尤为突出。上下位关系示例:词向量体现上下位关系示例:线性变换拟合目标函数:先对关系进行聚类,取原创 2017-09-19 14:03:56 · 2570 阅读 · 0 评论 -
[论文研读]非对称统计词向量(GloVe)
简述相对于Skip-gram来讲,主要区别在于 1、非对称的中心词与上下文向量表示 2、统计信息的利用(体现在偏置上) 3、目标函数 softmax->最小二乘法文章全名:GloVe: Global Vectors for Word Representation细节文章推导过程非常细,值得学习,但中心只有一个,就是目标函数 非对称统计词向量(GloVe) >原创 2017-09-19 14:02:50 · 499 阅读 · 0 评论 -
[论文研读]主题词向量
简介简单来讲,就是把通过LDA训练出的主题,作为词向量的一部分参与训练,对比了三种在目标/约束上有差别的模型,在词的相似度和文档分类上的效果。文章全名:Topical Word Embeddings模型总体框架是这样,先用LDA得到每个词在具体某个句子(Context/Document)中的主题zi,这里没有细讲,我猜测应该是取最大的主题,这样得到一个词-主题对,新原创 2017-09-19 14:01:46 · 668 阅读 · 0 评论 -
CNN用于文本分类
简述概括来讲,就是对不同尺度的窗口分别卷积,各尺度分别对不同时刻向量进行max-pooling,经过几层全连接之后进行分类,用word2vec来初始化输入矩阵有明显效果文章全名:Convolutional Neural Networks for Sentence Classification网络结构从左向右看:第一层对各词进行向量化,向量化有两种方式原创 2017-09-19 14:07:21 · 1119 阅读 · 0 评论 -
神经网络多轮对话系统
简述简单来讲,就是把上下文分别用RNN生成向量,计算两个向量变换后的内积对应二分类,判断一个回答是否是正确回答论文全名:The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems背景这篇文章的主要贡献有两点:1、将Ub原创 2017-09-19 14:08:40 · 4396 阅读 · 0 评论 -
神经网络多轮对话系统(续)
简述文章与神经网络多轮对话系统一脉相承,文章的主要贡献在于,将几种网络结构的结果集成,取得了好于任一单一网络的结果。文章全名:Improved Deep Learning Baselines for Ubuntu Corpus Dialogs网络结构前作的结构可以进一步抽象成中间的NN可以是CNN, LSTM或Bi-LSTM,对应的图示为原创 2017-09-19 14:09:13 · 1255 阅读 · 0 评论 -
生成判别对抗网络
最近的一篇Wasserstein GAN火遍朋友圈,相关的文章也拿来读一读,赶个时髦简介文章用博弈论,令生成模型和判别模型的相爱相杀后,得到与训练数据分布尽可能接近的生成模型,一个扮演打假者,一个扮演造假者,前者试图在真货与假货中辨别哪个样本是假货(生成的),哪个是真货(真实样本),后者不断提高自己的制假水平,不让前者辨别出来文章全名:Generative Adversar原创 2017-09-19 14:10:05 · 637 阅读 · 0 评论