【NLP】LDA笔记之模型评估

Reference

 


Number of topics

Plexity  OR  maximum likelihood estimation

使用R语言进行主题发现:使用R语言进行主题发现(一) - 深度客 - 博客园 

要在数据集中确定主题的个数,需要事先设定主题个数的搜索范围;然后分别使用LDA计算主题模型在不同主题数目下的困惑度或者似然估计数值,最终能够使得模型困惑度最低或者似然估计值最大的主题数即为最佳的主题个数。一般为了降低困惑度,通常还会采取交叉验证的方法进行。(由似然估计判别:抽取每个主题的对数似然估计值,计算各个主题的调和平均数,将其作为模型的最大似然估计)

图源《Trends in Diatom Research Since 1991 Based on Topic Modeling》

准确率

融合词向量及BTM模型的问题分类方法


Perplexity

theory

python下进行lda主题挖掘(三)——计算困惑度perplexity

评估LDA主题模型-perflexity:LDA主题模型好坏的评估,判断改进的参数或者算法的建模能力

code

topic-models-evaluation-in-gensim


Topic Coherence

gensim: CV Conference OR UMass Conference

主题模型TopicModel:LDA主题模型的评估

https://github.com/fozziethebeat/TopicModelComparison


查全率(recall)、查准率(precision)、F1值(F1 score)

《主题模型在基于社交媒体的灾害分类中的应用及比较》对比LDA与BTM模型性能:分别从LDA、BTM模型(Bi-term Topic Model, BTM双词对主题模型)推断结果中的每一类随机抽取出 102 条、101 条进行人工判别检验,人为地将原文本归到该8个大类中。(将2种模型推断主 题的结果与人工判别主题结果进行精度检验和比 对,并且对模型的分类结果进行应用分析)

主题模型在基于社交媒体的灾害分类中的应用及比较

《不同语料下基于LDA主题模型的科学文献主题抽取效果分析》

《基于主题模型的微博话题检测算法》:实验评估采用信息检测领域最常用的 3 个评价指标:准确率 P(precision)——结果中有多少是准确的、召回率即查全率 R(recall)——所有准确的结果中有多少被检测出来;综合评价指标 F 值(F-value)——准确率与召回率 的综合评价参数。


定量+定性评价

《不同语料下基于LDA主题模型的科学文献主题抽取效果分析》

定量评价:查准率、查全率和 F 值;信息熵。定性评价:主题抽取的广度(所抽取的有效主题在本学科领域内的覆盖 范围)和主题粒度(主题的细化程度)。主题抽取的广度越广,抽取的主题粒度越细,则主题抽取的效果越好。

  • 5
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
自然语言处理(Natural Language Processing,简称NLP)是一门研究人类语言与计算机之间交互的学科。它涉及了对自然语言的理解、生成、翻译和处理等任务。NLP的目标是使计算机能够理解和处理人类语言,从而实现与人类进行自然而有效的交流。 大模型是指具有大规模参数量的机器学习模型。近年来,随着计算能力和数据量的增加,大模型在各个领域取得了显著的成果。大模型通常通过深度学习方法进行训练,可以在各种任务上取得优秀的性能,包括自然语言处理、图像识别、语音识别等。 自然语言处理与大模型之间存在一定的联系和关系。大模型可以应用于自然语言处理任务中,通过训练大规模的神经网络模型,可以提高自然语言处理任务的性能和效果。例如,使用大模型进行文本分类、情感分析、机器翻译等任务时,可以获得更准确和准确的结果。 同时,自然语言处理也可以为大模型提供数据和应用场景。通过自然语言处理技术,可以对文本数据进行预处理、特征提取和语义理解,为大模型提供更好的输入数据。此外,自然语言处理还可以应用于大模型的评估和解释,帮助理解和解释大模型的决策过程和结果。 总结来说,自然语言处理和大模型是相互关联和相互促进的。自然语言处理为大模型提供了数据和应用场景,而大模型则可以提高自然语言处理任务的性能和效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值