初识文本建模

Unigram, Bigram, Trigram 均是自然语言处理(NLP)中的问题(N-gram问题衍生而来)。

Unigram:单word
Bigram:双word
Trigram:三word

比如西安交通大学:
Unigram 形式为:西/安/交/通/大/学
Bigram 形式为:西安/安交/交通/通大/大学(n-1)

  • bag of words:

    词袋模型,文档和文档之间是独立可交换的,同一个文档内的词也是独立可交换的。

我们在日常生活中,总是产生大量的文本,如果每一个文本存储为一篇文档,那每篇文档以人的观点即是有序的词的序列 d=(w 1 ,w 2 ,,w n )  (d:documentation,w:word)。

对于一篇文档, d=w  =(w 1 ,w 2 ,,w n )  ,该文档被生成(出现或者存在)的概率为:

p(w  )=p(w 1 ,w 2 ,,w n )=p(w 1 )p(w 2 )p(w n ) 

第二个等号意味着文档中的词是 独立的(也即 可交换的)(显然这是一个 极强的假设)。
一个语料 W=(w 1   ,w 2   ,,w m   )  m  篇文档组成,则该语料被生成的概率为:
p(W)=p(w 1   ,w 2   ,,w m   )=p(w 1   )p(w 2   )p(w m   ) 

以上即为较为简单的Unigram Model,也即假设文档之间也是独立可交换的。

PLSA(Probabilistic Latent Semantic Analysis)

一篇文档(Document)可以由多个主题(Topic)混合而成,而每个Topic都是词汇上(关于词汇)的概率分布(也即一个Topic不再是简单的一个关键字keyword,而是一些词的概率分布)。文章中的每个词都由一个固定的Topic(Topic对应于一个概率分布嘛)生成的(混合主题,正如混合高斯?)。


这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五道口纳什

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值