BiTerm Topic Model

在短文本分析中,LDA由于稀疏性问题效果不佳,而Mixture of unigram虽然解决了部分问题,但过于简化。BTM模型结合两者优点,通过词对(biterm)来估计主题,适用于短文本主题建模,提高了主题识别的准确性。
摘要由CSDN通过智能技术生成

需求背景

短文本,短视频的tag标签,如果使用图文的方法,显得力不从心,bad case太多。例如直接使用LDA算法对图文语料进行训练,取得不错的聚类效果,但是使用短视频的标签信息语料进行相同的操作,效果不佳。 直接使用word2vec进行关键词匹配的方式,很大程度上依赖视频标签的质量。而视频标签的标注信息不能依赖于信息上传者的标注信息与用户标注意图,这个不定因素不是我们能够控制的。

主题模型发展回顾

LDA

LDA的问题是稀疏性。LDA中每个文档对应一个\theta,每个词对应一个z。对于短文本,由于词少,z-->\theta​​​​​​​这一步的统计可能不具备统计意义。因为每个文本单独对应于\theta​​​​

  • 2
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值