主题模型TopicModel:LDA的缺陷和改进

LDA在处理短文本时面临挑战,因为document-level word co-occurrences稀疏。解决方案包括利用local context-level word co-occurrences和文本扩展。LDA的局限性包括未考虑词的相对位置和话题重叠。为解决这些问题,可以使用2-grams、H-LDA或TopicMapping等方法。此外,LDA在大数据文本分析中可能存在不一致性和不准确性,可以通过社区检测算法和并行计算(如基于GraphX的Gibbs Sampling LDA)来改进。
摘要由CSDN通过智能技术生成

http://blog.csdn.net/pipisorry/article/details/45307369

LDA的缺陷和改进

1. 短文本与LDA

ICML论文有理论分析,文档太短确实不利于训练LDA,但平均长度是10这个数量级应该是可以的,如peacock基于query 训练模型。

有一些经验技巧加工数据,譬如把同一session 的查询拼接,同一个人的twitter 拼接等。也可以用w2v那样的小窗口训练过lda。


短文本上效果不好的原因是document-level word co-occurrences 很稀疏。

解决这个问题的方式

1. 是如word2vec一样,利用local context-level word co-occurrences。 也就是说,把每个词当成一个文档以及把它周围出现过的词当做这个文档的内容。这样的话就不会受文档长度的限制了。

2. 短文本语义更集中明确,LDA是适合处理的,也可以做一些文本扩展的工作,有query log的话,1. query session,2. clickstream。无query log的话,1. 短文本当做query,通过搜索引擎(或语料库)获取Top相关性网页,2. 用语料库中短文本周边词集,3. 知识库中近义词,上下位词等。

3. KBTM

[http://weibo.com/1991303247/CltoOaSTN?type=repost#_rnd1433930168895]

皮皮blog


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值