LDA主题模型-Familia源码解读

本文介绍了LDA(Latent Dirichlet Allocation)主题模型,重点是概率主题模型,阐述了LDA的重要概念,包括文档、主题和词语的关系。接着,讨论了LDA的训练过程,并对百度的开源库Familia进行了源码解读,强调了其在语义表示和语义匹配上的应用。
摘要由CSDN通过智能技术生成

1. 定义:

关于LDA有两种含义,一种是线性判别分析(Linear Discriminant Analysis),一种是概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),2003年提出,我们这里讲的是后者。
知乎上有篇帖子关于LDA解释的非常详细:一文详解LDA主题模型

2. LDA模型中重要的概念

传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF,但是这种方法忽略了对语义的深层次挖掘,比如两篇文档可能用到的词汇不一样,但是却在说一个事情,或者说是一个主题的。主题模型就是对文档进行语义挖掘,LDA是很经典的方法。三个重要的概念是文档、主题、词语。我们把三者关系进行建模,利用一个生成模型。何谓生成模型?

生成模型:不同的文档选择主题的方法不一样,满足一种分布 α α 。我们认为产生一篇文档,首先要确定选择主题的方法,也就是确定一套分布参数 θ θ ,按照 θ θ 分布,要从N个主题中以某个概率选择某个主题,也就是确定了主题向量z,然后针对这个主题,按照分布 β β ,确定选词方法,选择词语w,最后构成一个文档来表达该主题。我们用以下图,一个联合概率分布来表示此生成过程:
这里写图片描述
符号解释:
N:表示一个文档中的词的个数
α α : 一篇文章选择一个主题时遵循的分布
θ θ : 确定一套 α α 分布的参数

  1. 多项式分布:
    • 文章和主题的分布是一个多项式分布 α α
    • 主题和词汇的分布是一个多项式分布
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值