论文总结7 基于LDA主题模型的软件缺陷分派方法_黄小亮｜TF-IDF

最新推荐文章于 2024-06-05 09:46:14 发布

alwaysuzybai

最新推荐文章于 2024-06-05 09:46:14 发布

阅读量333

点赞数

分类专栏： # 论文总结文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_57656758/article/details/129508327

版权

论文总结专栏收录该内容

23 篇文章 1 订阅

订阅专栏

使用基于文本分类的方法来进行缺陷分派时，基本方法是使用 description 信息作为文本，修复缺陷的人作为文本的类别标签，然后用 TF-IDF(Term Frequency-Inverse Document Frequency)构建向量空间模型，将每个缺陷报告表示成单词空间上的一个向量，再使用分类方法对新的缺陷报告进行分类，将其分派给类别对应的开发者。

LDA 是一种对文本建模的方法，它将文档表示成一个由文档、主题和词组成的 3 层概率模型，常被用来做主题分析[5]。LDA 模型建立在文档是“词袋”(bag-of-word)的假设之上，该假设忽略了单词之间的顺序关系，是可交换的，因此，在给定某些参数的情况下，这些单词在文档中就是独立同分布的。通过 LDA 建模，可以将文本映射到主题空间上，从而对其进行主题分类和判断相似度等操作。

构建模型

推导模型的参数的方法是使用吉布斯采样Gibbs的马尔可夫链蒙特卡洛MCMC方法，该方法对每个位置上的单词(将所有文档连成串)分配一个主题，并以此为状态空间来构建马尔可夫链，通过Gibbs采样来更新节点状态(单词的主题)，收敛到稳定状态后再用统计规律计算出数据集上LDA模型概率分布的近似。

对称狄利克雷分布

软件缺陷分派

LDA 是一种对文本建模的方法，它将文档表示成一个由文档、主题和词组成的 3 层概率模型，常被用来做主题分析[5]。LDA 模型建立在文档是“词袋”(bag-of-word)的假设之上，该假设忽略了单词之间的顺序关系，是可交换的，因此，在给定某些参数的情况下，这些单词在文档中就是独立同分布的。通过 LDA 建模，可以将文本映射到主题空间上，从而对其进行主题分类和判断相似度等操作。