NLP
文章平均质量分 79
超级无敌吉士堡
这个作者很懒,什么都没留下…
展开
-
word2vec的pytorch实现
文章目录词向量简介PTB 数据集Skip-gram的pytorch实现词向量简介ont-hot向量表示单词简单,但是不能表现出词语词之间的相似度word2vec词嵌入可以解决上面的问题。word2vec将词表示成一个定长的向量,然后通过在语料库中的预训练使得这些向量能够学习到词与词之间的相似关系和类比关系。word2vec有两种基本假设,一种是基于CBOW,另一种是基于Skip-gram。...原创 2020-02-27 00:57:26 · 848 阅读 · 0 评论 -
中文分词技术小结
中文分词技术总结规则分词正向最大匹配逆向最大匹配双向最大匹配统计分词语言模型HMM模型其他分词算法小结规则分词正向最大匹配思想:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字符串的前i个字作为匹配字段,查找字典。若字典存在这样的一个i字词,则匹配成功,将其切分出来。如果不存在,则匹配失败,将匹配字段最后一个字去掉,继续匹配。算法描述如下:1、从左到右取待切分汉语句的m个字符...原创 2019-07-08 01:35:02 · 345 阅读 · 0 评论 -
Word Representation in Vector Space
当初的自然语言处理经常将单词看成原子,单词之间没有相似性,如:one-hot编码处理。这样做有一定的好处,比如:简单、鲁棒而且在大量数据上训练的简单模型效果要比少量数据上训练的好。随着最近几年机器学习技术的进步,有了在更大的数据集上训练更复杂模型的可能性;而且应该优于简单模型。可能最成功的概念是使用单词的分布式向量表示。例如,基于语言模型的神经网络就明显优于N-gram分布表示(distrib...原创 2019-06-30 19:50:03 · 165 阅读 · 0 评论 -
Word Representation in Vector Space
Word Representation in Vector Space摘要模型构建Feedforward Neural Net Language Model (NNLM)Recurrent Neural Net Language Model (RNNLM)WordVecCBOWSkip-gram摘要当初的自然语言处理经常将单词看成原子,单词之间没有相似性,如:one-hot编码处理。这样做有一...原创 2019-08-09 20:22:05 · 244 阅读 · 0 评论