主题模型 LDA 困惑度计算 的一些应用

主题模型被广泛的应用于文本挖掘当中,很多人用该模型结合对应的领域做文本数据分析,在新闻传播、灾害信息科学、地理信息科学、社会媒体热点监测、推荐系统等方面均有所应用。

主题模型本身的数据原理十分繁杂,需要拥有一定的数学知识储备才能将其进行较好的梳理,关于数学原理的介绍有一大堆,我写这篇博客的目的,不是为了介绍背后的数据原理,而是想带着大家把这个模型的应用起来。

以上是我的初衷,所以下面我将介绍LDA模型最普遍的一个应用场景:基于用户每天浏览的文档,为其进行推荐。

那么我们的后台服务器每天都有记录各个用户点击和浏览的文档,这些文档会构成一个文档集合,LDA的功能是可以对其进行主题建模,它将原始的文档——词的结构,转为文档——主题——词的三层结构。于是乎在技术实现的层面上,我们对文档进行分词,获取语料格式为文档-词矩阵,基于LDA主题模型,我们假设主题个数为K,获得了文档-主题矩阵【N*K】N为文档数量和主题—词汇矩阵【K*M】M为N个文档中词汇的总数{非重复}。那么在我们的服务器上就可以保存下来相应的主题—词汇矩阵,在一个月黑风高的夜晚,一群无良小编开始制造各种“新闻”,如何投读者所好骗取流量成了一个问题???

那么基于主题模型获得的主题-词汇矩阵就发挥作用了,将新的“新闻”进行分词,带入到主题——词汇矩阵当中,就可以获取文档——主题矩阵了,注意:获取得到的文档——主题矩阵中,文档已经有了主题信息了哦,我们就可以根据用户平时爱读的那些主题,来推荐新的“新闻”了。

于是乎一个简单的新闻推荐系统,就解决了。

注意:以上的例子中,在做两个事情!①利用LDA模型,我们输入了一个参数:主题个数,获得两个东西:文档-主题矩阵&&主题-词汇矩阵。②***基于主题-词汇矩阵,在面对新的数据时,不用机械的重新再来一遍LDA获取主题信息,而是直接通过主题—词汇矩阵,获取了文档的主题分布***。

不知道这样的解释清不清楚,至于更深层的一些问题,比如:如何获取最优主题个数&&如何应对随着时间变化的主题信息改变问题,欢迎大家一起交流。本人也承接一些咨询服务,在写paper的时候遇到一些LDA模型使用的问题,欢迎加我Q咨询:869647405

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值