论文总结7 基于LDA主题模型的软件缺陷分派方法_黄小亮|TF-IDF

目录

 构建模型

对称狄利克雷分布

软件缺陷分派


传统的VSM向量空间模型的软件缺陷分配方法:存在特征空间维度高数据稀疏且包含噪音等问题,分派准确率较低。

LDA:将缺陷报告从原始的高维文本单词空间映射到低维语义主题空间,在新的低维主题空间上进行分派。

软件缺陷分派的目的,就是利用缺陷跟踪系统(如 Bugzilla)中己解决缺陷的历史信息(包括参与解决缺陷的人员信息),对新提交的缺陷进行自动分派。缺陷的自动分派能帮助系统开发与维护人员将宝贵的时间专注于缺陷的修复。

相比于普通的文本分类问题,缺陷分派可用信息少,而类别多,每个开发人员相当于一个类别,因此分配效果普遍较差,分派准确率低。

使用基于文本分类的方法来进行缺陷分派时,基本方法是使用 description 信息作为文本,修复缺陷的人作为文本的类别标签,然后用 TF-IDF(Term Frequency-Inverse Document Frequency)构建向量空间模型,将每个缺陷报告表示成单词空间上的一个向量,再使用分类方法对新的缺陷报告进行分类,将其分派给类别对应的开发者。

LDA 是一种对文本建模的方法,它将文档表示成一个由文档、主题和词组成的 3 层概率模型,常被用来做主题分析[5]。LDA 模型建立在文档是“词袋”(bag-of-word)的假设之上,该假设忽略了单词之间的顺序关系,是可交换的,因此,在给定某些参数的情况下,这些单词在文档中就是独立同分布的。通过 LDA 建模,可以将文本映射到主题空间上,从而对其进行主题分类判断相似度等操作。

 构建模型

推导模型的参数的方法是使用吉布斯采样Gibbs的马尔可夫链蒙特卡洛MCMC方法,该方法对每个位置上的单词(将所有文档连成串)分配一个主题,并以此为状态空间来构建马尔可夫链,通过Gibbs采样来更新节点状态(单词的主题),收敛到稳定状态后再用统计规律计算出数据集上LDA模型概率分布的近似。

对称狄利克雷分布

软件缺陷分派

LDA 是一种对文本建模的方法,它将文档表示成一个由文档、主题和词组成的 3 层概率模型,常被用来做主题分   析[5]。LDA 模型建立在文档是“词袋”(bag-of-word)的假设之上,该假设忽略了单词之间的顺序关系,是可交换的,因此,在给定某些参数的情况下,这些单词在文档中就是独立同分布的。通过 LDA 建模,可以将文本映射到主题空间上,从而对其进行主题分类和判断相似度等操作。 

(2023年 3月11日 23:00首次发布)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值