自然语言处理
文章平均质量分 60
zakexu
这个作者很懒,什么都没留下…
展开
-
TF-IDF
1.TF-IDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency);2.词频(term frequency,TF):指在一份给定的文件里某一个给定的词语在该文件中出现的频率;这个数字是对词数(term count)的归一化,以防止它偏向长的文件;(同一个词语在长文件里可能会比短文件有更高的词数,而原创 2015-10-26 16:09:35 · 1069 阅读 · 0 评论 -
主题模型
(一)概念1.LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构;所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语这样一个过程得到;文档到主题服从多项式分布,主题到词服从多项式分布;2.LDA是一种非监督机器学习技术,可以用原创 2016-03-06 11:13:59 · 11168 阅读 · 1 评论 -
统计语言模型
(一)简介1.词向量传统表示:(1)One-hot Representation;(2)存在稀疏以及维度灾难的问题;(3)根据词向量无法判断词之间的相关性;2.词向量近期表示:(1)Distributed representation;Word Representation;Word Embedding;(2)低维实数向量;(3)词义相似可以用空间距离来表示;3原创 2016-05-09 10:56:50 · 2097 阅读 · 0 评论 -
word2vec模型
(一)简介1、传统的词向量一般用one-hot表示,通常面临两个问题:(1)高维稀疏的向量带来计算成本;(2)不同的词向量彼此正交,无法衡量词之间的相似度。而distributed representation通过训练,可以得到每个词的低维稠密向量,不仅计算成本低,而且可以通过向量的距离计算来表示词与词之间的相似度。word2vector就是一个将词进行低维稠密向量化的工具。2、wor...原创 2016-05-10 11:06:55 · 15819 阅读 · 2 评论