LDA主题模型的渊源

最新推荐文章于 2022-05-05 21:43:17 发布

珠穆

最新推荐文章于 2022-05-05 21:43:17 发布

阅读量297

点赞数

文章标签：自然语言处理

在文本挖掘中，有一项重要的工作就是分析和挖掘出文本中隐含的结构信息，而不依赖任何提前标注的信息。今天我要介绍的是一个叫做 LDA（Latent Dirichlet Allocation）的模型，它在过去十年里开启了一个领域叫主题模型。
从 LDA 提出后，不少学者都利用它来分析各式各样的文档数据，从新闻数据到医药文档，从考古文献到政府公文。一段时间内，LDA 成了分析文本信息的标准工具。从最原始的 LDA 发展出来的各类模型变种，则被应用到了多种数据类型上，包括图像、音频、混合信息、推荐系统、文档检索等等，各类主题模型变种层出不穷。下面我来简单剖析一下 LDA 这个模型，聊聊它的模型描述以及训练方法等基础知识。
LDA 的背景介绍
LDA 的论文作者是戴维·布雷（David Blei）、吴恩达和迈克尔·乔丹（Michael Jordan）。这三位都是今天机器学习界炙手可热的人物。论文最早发表在 2002 年的神经信息处理系统大会（Neural Information Processing Systems，简称 NIPS）上，然后长文章（Long Paper）于 2003 年在机器学习顶级期刊《机器学习研究杂志》（Journal of Machine Learning Research）上发表。迄今为止，这篇论文已经有超过 1 万 9 千次的引用数，也成了机器学习史上的重要文献之一。
论文发表的时候，戴维·布雷还在加州大学伯克利分校迈克尔手下攻读博士。吴恩达当时刚刚从迈克尔手下博士毕业来到斯坦福大学任教。戴维 2004 年从伯克利毕业后，先到卡内基梅隆大学跟随统计学权威教授约翰·拉弗蒂（John Lafferty）做了两年的博士后学者，然后又到东部普林斯顿大学任教职，先后担任助理教授和副教授。2014 年转到纽约哥伦比亚大学任统计系和计算机系的正教授。戴维在 2010 年获得斯隆奖（Alfred P. Sloan Fellowship，美国声誉极高的奖励研究人员的奖项，不少诺贝尔奖获得者均在获得诺贝尔奖多年之前获得过此奖），紧接着又在 2011 年获得总统青年科学家和工程师早期成就奖（Presidential Early Career Award for Scientists and Engineers，简称 PECASE）。目前他所有论文的引用数超过了 4 万 9 千次。
吴恩达在斯坦福晋升到副教授后，2011 年到 2012 年在 Google 工作，开启了谷歌大脑（Google Brain）的项目来训练大规模的深度学习模型，是深度学习的重要人物和推动者之一。2012 年他合作创建了在线学习平台 Coursera，可以说是打开了慕课（Massive Open Online Course，简称 MOOC）运动的大门。之后吴恩达从 2014 年到 2017 年间担任百度首席科学家，并创建和运行了百度在北美的研究机构。目前他所有论文的引用数超过 8 万 3 千次。文章的第三作者迈克尔·乔丹是机器学习界的泰斗人物。他自 1998 年在加州大学伯克利任教至今，是美国三个科学院院士（American Academy of Arts and Sciences、National Academy of Engineering 以及 National Academy of Sciences），是诸多学术和专业组织的院士（比如 ACM、IEEE、AAAI、SIAM 等）。迈克尔可以说是桃李满天下，而且其徒子徒孙也已经遍布整个机器学习领域，不少都是学术权威。他的所有论文有多达 12 万次以上的引用量。
值得注意的是，对于三位作者来说，LDA 论文都是他们单篇论文引用次数最多的文章。

珠穆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
LDA主题模型的渊源

在文本挖掘中，有一项重要的工作就是分析和挖掘出文本中隐含的结构信息，而不依赖任何提前标注的信息。今天我要介绍的是一个叫做 LDA（Latent Dirichlet Allocation）的模型，它在过去十年里开启了一个领域叫主题模型。从 LDA 提出后，不少学者都利用它来分析各式各样的文档数据，从新闻数据到医药文档，从考古文献到政府公文。一段时间内，LDA 成了分析文本信息的标准工具。从最原始的 LDA 发展出来的各类模型变种，则被应用到了多种数据类型上，包括图像、音频、混合信息、推荐系统、文档检索等等，
复制链接

扫一扫