最终确定去360做安全网关部分的自然语言处理环节,在此感谢360和马主管的赏识!未来2个月的学习内容应该跟NLP和C++密切相关。
LDA主题词模型探析
参考博主:http://www.tuicool.com/articles/E7RVFzU 内容再自行整理得来,侵权删。
LDA是什么?
LDA(Latent Dirichlet Allocation 文档主体生模型)是一种文档主体生成模型,也成为一个三层贝叶斯概率模型,包含词、主体、文档这三层结构。所谓生成模型,就是说,一篇文章的每个词都是通过以一定的概率选择了一个主题,并从这个主题中以一定的概率选择这个词语这个一个过程得到的。
LDA是一种非监督学习技术,可用来识别海量文档中潜藏的主题信息。它采用了词袋(bag of words)的方法,这个方法将一个文档识别成一个词频向量,将文字信息转化成数学信息。
LDA作用
传统判断两个文档相似性的办法是查看两个文档共同出现的单词的多少,如TF-IDF等,但这种办法没有考虑到文字背后的语义关联,有可能两个文档说的是相似的内容但并没有词语上的交集,举个例子:
“今天大盘挺不错啊”
“我买进了一万股”
可以看到上面的两个文本并没有任何词语交集,但是他们却说的都是“股票”这个话题,如果按照传统的方法看着两个文档,肯定是毫无关联的,所以在判断文档相关性的时候需要考虑一下文档的语义,主题模型是语义挖掘中比较好的手段,而LDA又是其中比较有效的模型。
“主题”又是什么的,形象来说,主题像是一个桶,里面装了出现概率较高的单词,这些单词与这个主题有很强的相关性。这些单词是依据条件概率放进这个桶中的。
怎样才能生成主题,对文章的主题应该如何分析,这是主题模型应该探讨的问题。
生成模型是说,我们认为一篇文档的每个词都是通过一定概率选择了一个主题,并从这个主题中以一定概率选择某个词语,那么在某个文档中出现该词语的概率为: