主题模型(topic model)是以非监督学习的方式对文集的隐含语义结构(latent semantic structure)进行聚类(clustering)的统计模型。
主题建模是自然语言处理(NLP)中用于训练机器学习模型的一种方法。它是指从文档中逻辑地选择属于某个主题的单词的过程。
从业务的角度来看,主题建模提供了极大的节省时间和精力的好处。例如,想要确定改进之处的公司可以进行一项调查,要求用户对他们的服务进行评级,并解释每个评级。主题模型可以通过将信息归类到诸如“评级较低的最常见原因”这样的主题来快速跟踪这种分析。
主题建模技术
主题建模是关于几个词之间的逻辑关联。比方说,一家电信运营商想要确定糟糕的网络是否是客户满意度低的一个原因。这种情况下 “不良网络”就是主题。分析文档中像“坏”,“慢速”,“呼叫未连接”等词,这些词更有可能描述网络问题,需要排除掉像“或”、“和”等常见无意义的词汇。
主题建模最常用的三种技术是:
1. 潜在语义分析(LSA)
潜在语义分析(LSA)的目的是利用词语周围的上下文,以捕获隐藏的概念或主题。LSA最初是用在语义检索上,为了解决一词多义和一义多词的问题。
在这种方法中,机器使用Term Frequency- inverse Document Frequency (TF-IDF)来分析文档。TF-IDF是一种反映一个词在语料库中对一个文档的重要性的数字统计。
为了能够解决这个问题,需要将词语(term)中的concept提取出来,建立一个词语和概念的关联关系(t-c relationship),这样一个文档就能表示成为概念的向量。这样输入一段检索词之后,就可以先将检索词转换为概念,再通过概念去匹配