Topic Model

1.  文本建模

我们平时所见的文档都是一个个词语构成的,但是在理解文档的时候,我们需要考虑文档主题,但是如果每个文档都需要人工理解的话代价太高,因此就产生了文本建模。文本建模的主要目的是追问我们所观察的语料库中的文本次序是怎样生成的。然后发现蕴藏于其中的主题,主题间的联系,以及主题随时间的演变,最后完成文档的自动标注。 人类所产生的文档都可以看作是一个上帝掷骰子所产生的,我们看到只是游戏的结果即产生的文档,因此在文本建模中我们想要做的就是知道掷骰子的规则。也就是我们需要知道两个问题: 1)上帝都有什么样的骰子。 2)上帝抛骰子的规则。 转化到建模中:第一个问题就是模型中都有哪些参数,第二个问题就是按照什么顺序产生文档。

2.  Unigram Model

这是最简单的模型,思想也很简答,就是词典中总共有V个单词,产生过程如下:

1)  上帝只有一个骰子,总共有V个面,每个面对应一个单词;
2)  每抛一次骰子,产生一个面,就将这个面对应的单词放到文档中,这样有n个单词的文档,就掷骰子n次。

这样文档产生就遵从一个多项分布,如下图,其中p为各个面的概率向量

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值