交互式LDA

  • 作用

增强用户体验,聚焦主题挖掘的效果。对于用户不感兴趣或者不关注的主题,用户可以通过调整每次迭代结束后的主题-词概率分布来指导和监督下一次迭代推理过程。

  • 基本LDA问题
    • 可交互性。使用参数推理技术如期望最大化(EM),Gibbs等抽样算法。基本的LDA推理过程是fire-and-go模式,不能进行交互。
    • 解决方案:主题-词概率分布。LDA模型推理出的是文档-主题和主题-词概率分布,其中文档-主题概率分布跟具体的文档有关,是客观的。而主题-词的概率分布带有一定的偏好性,可以依据这种特性建立用户的交互接口。一种应用是采用半监督聚类分析:把交互性融合进在线主题挖掘模型中建立交互式挖掘系统框架。主要是在程序运行过程中通过调整每次迭代后的主题-词概率分布来干涉后续迭代过程,指导增量Gibbs算法进行推理,使结果的呈现具有更佳的解释性和直观性,同时不丧失结果的客观公正性。
    • 可解释性。每个主题-词分布中包含的语义的可解释性需要进一步挖掘,这是近年来该模型一个新的研究点。原始LDA模型中表示主题的TopK关键词刻画性不强,容易被一些背景词汇所淹没,本章基于词的信息熵来对排序结果进行改进,提高主题展示的精准度。对主题的解释要结合关键词和代表文章来进行综合分析对比才能准确把握。
  • 在线交互式LDA模型:iOLDA Model

image 

  • 交互式策略
    • 通过上一时间片的后验来影响下一时间片的先验(明显的贝叶斯参数估计方法)。可以称之为“主题遗传”。
    • 但是有可能由于个时间片数据差异,有可能出现主题-词分布过多位0的情况,必须采用平滑技术对概率结果进行平滑和规范化。同时,平滑也可由用户设定自己的偏好,以改变词在主题上的聚焦效果。
    • 通过平滑技术来进行交互。image ,对后验知识进行平滑,作为下次迭代的先验。可有三种层次交互策略:
      • 语料层次。防止时间片数据变化过大。                              image 

                              Wsmothing即为平滑参数。(仅考虑词汇量,需要深挖!)

      • 词层次。即对主题-词分布进行改进。采用TF*IDF算法,小于阀值则置0。

                             image

      • 用户层次。直接过滤掉某些词汇,或者将按照词汇向通一主题聚类。(感觉类似关键词匹配)
  • 可解释性策略
    • 基于词的信息熵。实现时,由于文本流中P(w)无法计算,采用IDF作为信息熵(大跌眼镜),理由:TF*IDF本质上也是一种信息量大小的标志,采用这种方法,可以过滤掉背景词汇。

                    image

    • 策略:注意P(w)与定义4.2不同,此处代表词在主题中的出现概率,而非文本流中概率。

         image 

参考文献:

崔凯硕士论文

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值