需求背景
短文本,短视频的tag标签,如果使用图文的方法,显得力不从心,bad case太多。例如直接使用LDA算法对图文语料进行训练,取得不错的聚类效果,但是使用短视频的标签信息语料进行相同的操作,效果不佳。 直接使用word2vec进行关键词匹配的方式,很大程度上依赖视频标签的质量。而视频标签的标注信息不能依赖于信息上传者的标注信息与用户标注意图,这个不定因素不是我们能够控制的。
主题模型发展回顾
LDA
![](https://i-blog.csdnimg.cn/blog_migrate/97cceec70e44aab652d53f656d72deb9.png)
LDA的问题是稀疏性。LDA中每个文档对应一个
,每个词对应一个z。对于短文本,由于词少,z-->
这一步的统计可能不具备统计意义。因为每个文本单独对应于