![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
jmuhe
这个作者很懒,什么都没留下…
展开
-
CWE和SCWE模型简介
CWE和SCWE模型介绍引入CWE和SCWE模型都是基于word2vec模型的,不过这两个模型是专门训练中文词向量的,且将汉字的语义信息也融入到模型的训练中。 在中文中,有些词如“青蛙”,构成该词的字也能够提供丰富的语义信息,像“青”就是用来形容“蛙”;而另有些词,如“沙发”,“沙”和“发”对“沙发”来说就没有任何语义,原因在于“沙发”是个音译词。类似的现象有很多。引入几个概念,定义语素为语言中的原创 2017-05-13 18:24:48 · 1666 阅读 · 0 评论 -
通过偏旁信息改进中文字向量
基本思想在中文中,我们都知道汉字是由若干部分组成的,称为偏旁。而且偏旁也往往能够提供丰富的语义信息。比如,单人旁组成的字往往意指人,如“他”、“你”等;三点水为部首的字往往与水有关,如“海”、“江”等。因此,一个非常自然的想法就是将偏旁信息融入到词向量的生成过程中。Yanran Li等人发表的论文 《Component-Enhanced Chinese Character Embeddings》就是翻译 2017-05-23 22:58:39 · 2982 阅读 · 0 评论 -
Contradiction Detection with Contradiction-Specific Word Embedding
简介所谓矛盾contradiction detection就是识别句子对中的相反关系。如句子The man is denying an interview和The man is granting an interview就是两句意义相反的句子。contradiction detection就是要检测出这种关系。词对也是类似的,如词overfull和empty就是一对反义词。但是基于传统词向量训练方法翻译 2017-09-15 14:42:08 · 519 阅读 · 0 评论 -
Linear Ensembles of Word Embedding Models
基本描述对于随机初始化词向量和其他相关参数的训练模型,总免不了随机性的存在,而这种随机噪声可能会对那些有用信息产生干扰,从而降低模型的效果。其次,对于一些小语种,可能并不能提供足够大的语料库以支持词向量模型的训练,故需要更加充分地利用仅有的数据。 将不同的模型整合成一个模型可能能够很好地解决上述两个问题。但是该文的方法和我预期的还是有点差距。我所期望的是将两个不同的模型整合成一个模型的方法,如将W翻译 2017-09-16 12:29:14 · 245 阅读 · 0 评论 -
Reproducing and learning new algebraic operations on word embeddings using genetic programming
简介现在生成的词向量能够利用一些代数运算,如向量的加减,来捕获词之间的语义关系,典型的一个例子就是“King”-“Man” + “woman” = “queen”。在NLP中,也叫做类比实验(analogy test),其一般形式是“a is to b as c is to ?”。不过正如例子中展示的,现在一般使用的都是简单的加减法。但是,这并不表示不存在其他的运算也能捕获这种语义关系而且可能效果更翻译 2017-10-09 15:32:01 · 234 阅读 · 0 评论 -
Content Tree Word Embedding for document representation
一 简介该篇论文是对文本向量进行建模,不过采取的是比较简单的方法,就是将文本中所有词的向量求平均作为该文本的向量表示。不过词向量并不是简单的用word2vec或其他词向量模型生成,而是借助了content tree,在预训练好的词向量的基础上对词向量进行进一步的更新,在更新后的词向量的基础上求平均以表示文本。二 content tree的创建content tree就是以树形结构去表示一个文本。其假翻译 2017-10-05 14:22:34 · 577 阅读 · 1 评论 -
Neural Bag-of-Ngrams
简介前一段时间看的几篇有关文本建模的论文,如Mikolov的Doc2vec,Kiros的Skip-thought等都是侧重模型的创建,即通过怎样的神经网络方法,得到一个较理想的文本表示。其他的有关文本建模(句子和篇章)的论文,他们的注意力并不是集中在纯粹的文本建模上,而是在进行文本分类的时候,顺带的对文本进行了建模,用的方法基本上也都是深度学习,如DNN、RNN、CNN之类的。这些模型的一个共同点就翻译 2017-10-12 11:35:12 · 2434 阅读 · 0 评论