LDA主题模型

标签: 主题模型
5人阅读 评论(0) 收藏 举报
分类:

朴素贝叶斯的分析

  1. 可以胜任许多文本分类问题。
  2. 无法解决语料中的一词多义和多词一义的问题,它更像是词法分析,而非语义分析。
  3. 如果使用词向量作为文档的特征,一词多义和多词一义会造成计算文档间相似度的不准确性。
  4. 可以通过增加“主题”的方式,一定程度上解决上述问题

        a.      一个词可能被映射到多个主题中

        一词多义

        b.      多个词可能被映射到某个主题的概率很高

        多词一义


pLSA模型

1. 基于概率统计的pLSA模型(概率隐语义分析)增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型参数


pLSA的总结

1. pLSA应用于信息检索、过滤、自然语言处理等领域,pLSA考虑到词分布和主题分布,使用EM算法来学习参数

2. 虽然推导略显复杂,但最终公式简洁清晰,很符合直观理解,需用心琢磨;此外,推导过程使用了EM算法,也是学习EM算法的重要素材。

什么是主题

因为LDA是一种主题模型,那么首先必须明确知道LDA是怎么看待主题的。对于一篇新闻报道,我们看到里面讲了昨天NBA篮球比赛,那么用大腿想都知道它的主题是关于体育的。为什么我们大腿会那么聪明呢?这时大腿会回答因为里面出现了“科比”、“湖人”等等关键词。那么好了,我们可以定义主题是一种关键词集合,如果另外一篇文章出现这些关键词,我们可以直接判断他属于某种主题。但是,亲爱的读者请你想想,这样定义主题有什么弊端呢?按照这种定义,我们会很容易给出这样的条件:一旦文章出现了一个球星的名字,那么那篇文章的主题就是体育。可能你马上会骂我在瞎说,然后反驳说不一定,文章确实有球星的名字,但是里面全部在讲球星的性丑闻,和篮球没半毛钱关系,此时主题是娱乐还差不多。所以一个词不能硬性地扣一个主题的帽子,如果说一篇文章出现了某个球星的名字,我们只能说有很大概率他属于体育的主题,但也有小概率属于娱乐的主题。于是就会有这种现象:同一个词,在不同的主题背景下,它出现的概率是不同的。并且我们都可以基本确定,一个词不能代表一种主题,那么到底什么才是主题呢?耐不住性子的同学会说,既然一个词代表不了一种主题,那我就把所有词都用来代表一种主题,然后你自己去慢慢意会。没错,这样确实是一种完全的方式,主题本来就蕴含在所有词之中,这样确实是最保险的做法,但是你会发现这样等于什么都没做。老奸巨猾的LDA也是这么想的,但他狡猾之处在于它用非常圆滑手段地将主题用所有词汇表达出来。怎么个圆滑法呢?手段便是概率。LDA认为天下所有文章都是用基本的词汇组合而成,此时假设有词库V={v1,v2,....,vn}V={v1,v2,....,vn},那么如何表达主题kk呢?LDA说通过词汇的概率分布来反映主题!多么狡猾的家伙。我们举个例子来说明LDA的观点。假设有词库

{}{科比,篮球,足球,奥巴马,希拉里,克林顿}
假设有两个主题
{}{体育,政治}
LDA说体育这个主题就是:
{:0.3:0.3:0.3:0.03:0.03:0.04}{科比:0.3,篮球:0.3,足球:0.3,奥巴马:0.03,希拉里:0.03,克林顿:0.04}
(数字代表某个词的出现概率),而政治这个主题就是:
{:0.03:0.03:0.04:0.3:0.3:0.3}{科比:0.03,篮球:0.03,足球:0.04,奥巴马:0.3,希拉里:0.3,克林顿:0.3}
LDA就是这样说明什么是主题的,竟说得我无言以对,细思之下也是非常合理。
查看评论

WordPress博客模板系统开发

不管是html/css,还是bootstrap,这些是让你能够设计网页的。然而网站大部分是动态的,需要持续的更新和维护,所以只是网页是无法实现动态网站的,我们需要把这些静态的网页和我们的数据库建立连接。使用wordpress制作的网站,模板就是连接前端网页和数据库的桥梁,所以这套视频我们就是教你学会模板制作的。
  • 2017年01月24日 17:25

LDA(Latent Dirichlet Allocation)主题模型

LDA于2003年由 David Blei, Andrew Ng和 Michael I. Jordan提出,因为模型的简单和有效,掀起了主题模型研究的波浪。虽然说LDA模型简单,但是它的数学推导却不是...
  • aws3217150
  • aws3217150
  • 2016-12-24 16:22:09
  • 10656

主题模型TopicModel:主题模型LDA的应用

http://blog.csdn.net/pipisorry/article/details/45665779 应用于推荐系统 在使用LDA(Latent Dirichlet Allocation)...
  • pipisorry
  • pipisorry
  • 2015-05-12 10:10:16
  • 9411

王小草【机器学习】笔记--主题模型LDA实践与应用

标签(空格分隔): 王小草机器学习笔记笔记整理时间:2016年12月30日 笔记整理者:王小草1. LDA的实现工具在主题模型LDA的理论篇,长篇大幅的公式与推导也许实在烦心,也不愿意自己去写代码实...
  • sinat_33761963
  • sinat_33761963
  • 2016-12-30 18:12:45
  • 5739

主题模型TopicModel:LDA的缺陷和改进

http://blog.csdn.net/pipisorry/article/details/45307369 LDA的缺陷和改进 1. 短文本与LDA ICML论文有理论分析,文档太短确实不利...
  • pipisorry
  • pipisorry
  • 2015-04-27 10:57:16
  • 6716

理顺主题模型LDA及在推荐系统中的应用

1 关于主题模型使用LDA做推荐已经有一段时间了,LDA的推导过程反复看过很多遍,今天有点理顺的感觉,就先写一版。 隐含狄利克雷分布简称LDA(latent dirichlet allocation...
  • leiting_imecas
  • leiting_imecas
  • 2017-04-03 16:09:51
  • 1768

LDA主题模型、Word2Vec

原文地址:http://blog.csdn.net/huagong_adu/article/details/7937616背景隐含狄利克雷分配(Latent Dirichlet Allocatio...
  • weixin_36001351
  • weixin_36001351
  • 2017-05-07 19:46:48
  • 1292

LDA主题模型学习心得

LDA主题模型LDA 简介 LDA模型:Latent Dirichlet Allocation是Blei 等人于2003年提出的基于概率模型的主题模型算法,它是一种非监督机器学习技术,可以用来识别...
  • a101070096
  • a101070096
  • 2016-01-04 23:08:13
  • 3048

LDA主题模型学习笔记1:模型建立

LDA于2003年在论文《Latent Dirichlet Allocation》中提出,是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而根据主题分布进行文本分类...
  • happyer88
  • happyer88
  • 2015-06-06 23:37:21
  • 5447

自然语言处理-LDA主题模型

LDA主题模型 哈尔滨工程大学-537 一、LDA主题模型简介 LDA(Latent Dirichlet Allocation)中文翻译为:潜在狄利克雷分布。LDA主题模型是一种文档生成模型,是...
  • weixin_41090915
  • weixin_41090915
  • 2018-01-14 20:08:45
  • 505
    个人资料
    等级:
    访问量: 6279
    积分: 414
    排名: 11万+
    文章存档
    最新评论