主题模型 LDA 困惑度计算的一些应用

最新推荐文章于 2024-04-24 15:30:16 发布

thyy8510386

最新推荐文章于 2024-04-24 15:30:16 发布

阅读量1.3k

点赞数

分类专栏：自然语言处理文章标签：主题模型 LDA 文本挖掘自然语言推荐系统

本文链接：https://blog.csdn.net/thyy8510386/article/details/101481911

版权

自然语言处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

主题模型被广泛的应用于文本挖掘当中，很多人用该模型结合对应的领域做文本数据分析，在新闻传播、灾害信息科学、地理信息科学、社会媒体热点监测、推荐系统等方面均有所应用。

主题模型本身的数据原理十分繁杂，需要拥有一定的数学知识储备才能将其进行较好的梳理，关于数学原理的介绍有一大堆，我写这篇博客的目的，不是为了介绍背后的数据原理，而是想带着大家把这个模型的应用起来。

以上是我的初衷，所以下面我将介绍LDA模型最普遍的一个应用场景：基于用户每天浏览的文档，为其进行推荐。

那么我们的后台服务器每天都有记录各个用户点击和浏览的文档，这些文档会构成一个文档集合，LDA的功能是可以对其进行主题建模，它将原始的文档——词的结构，转为文档——主题——词的三层结构。于是乎在技术实现的层面上，我们对文档进行分词，获取语料格式为文档-词矩阵，基于LDA主题模型，我们假设主题个数为K，获得了文档-主题矩阵【N*K】N为文档数量和主题—词汇矩阵【K*M】M为N个文档中词汇的总数{非重复}。那么在我们的服务器上就可以保存下来相应的主题—词汇矩阵，在一个月黑风高的夜晚，一群无良小编开始制造各种“新闻”，如何投读者所好骗取流量成了一个问题？？？

那么基于主题模型获得的主题-词汇矩阵就发挥作用了，将新的“新闻”进行分词，带入到主题——词汇矩阵当中，就可以获取文档——主题矩阵了，注意：获取得到的文档——主题矩阵中，文档已经有了主题信息了哦，我们就可以根据用户平时爱读的那些主题，来推荐新的“新闻”了。

于是乎一个简单的新闻推荐系统，就解决了。

注意：以上的例子中，在做两个事情！①利用LDA模型，我们输入了一个参数：主题个数，获得两个东西：文档-主题矩阵&&主题-词汇矩阵。②***基于主题-词汇矩阵，在面对新的数据时，不用机械的重新再来一遍LDA获取主题信息，而是直接通过主题—词汇矩阵，获取了文档的主题分布***。

不知道这样的解释清不清楚，至于更深层的一些问题，比如：如何获取最优主题个数&&如何应对随着时间变化的主题信息改变问题，欢迎大家一起交流。本人也承接一些咨询服务，在写paper的时候遇到一些LDA模型使用的问题，欢迎加我Q咨询：869647405