算法概念
文章平均质量分 92
象在舞
谁说大象不能跳舞!
展开
-
TF-IDF的原理概述
今天来说一下什么是TF-IDF,我记得这个东西从2017年开始就一直缠绕着我,今天我把它撕扯下来,拼凑着这样的一篇趣文,我想看过之后,大家就算没学过高等数学,那么对于它的原理也会了然于胸了。为了能以一种接地气的方式表达出它的原理,本文几乎不涉及复杂的数学公式,尽管那些公式在我看来是那么的富有美感…… 这里有一篇文章,一篇很长很长的文章,有赤道那么长(此处运用夸张的修辞手法,形象生动的描绘出文章之长)。现在我们想不在人工干预的情况下,使用计算机提取出文章的关键词,那么应该怎么做呢...原创 2020-10-10 17:06:37 · 1050 阅读 · 1 评论 -
隐马尔可夫模型(HMM)
隐马尔可夫模型(Hidden Markov Model,HMM),在语言识别、自然语言处理以及生物信息等领域体现了很大的价值。 考虑下面交通灯的例子,一个序列可能是红-红/橙-绿-橙-红。这个序列可以画成一个状态机,不同的状态按照这个状态机互相交替,每一个状态都只依赖于前一个状态,如果当前的是绿灯,那么接下来就是橙灯,这是一个确定性系统,因此更容易理解和分析,只要这些...转载 2019-02-20 16:09:36 · 1575 阅读 · 0 评论 -
连续时间动态主题模型(Continuous Time Dynamic Topic Models, cDTM)
用于分析和管理大量电子文档的工具变得越来越重要。近年来,离散数据的分层贝叶斯模型,已成为一种广泛使用的文本探索和预测分析方法。 主题模型,例如潜在Dirichlet分配(LDA)和更一般的离散分量分析,假定可以使用少量的单词分布(称为主题)来解释观察到的集合LDA是潜在语义索引(LSI)和概率潜在语义索引(pLSI)的概率扩展。 由于其正式的生成语义,LDA已被扩展并应用于作者,电子...原创 2018-12-26 16:56:01 · 6997 阅读 · 2 评论 -
动态主题模型(Dynamic Topic Models, DTM)
在本文中,我们介绍一个动态主题模型,该模型捕获了顺序组织的文档语料库中主题的演变。 我们通过分析由Ed Edi-son于1880年创立的Jour-nal Science的100多年的OCR文章来证明其适用性。在这种模式下,文章按年份分组,每年的艺术作品都来自于去年主题演变而来的一系列主题。 在随后的部分,我们扩展了经典状态空间模型,以指定主题演化的统计模型。然后,我们...原创 2018-12-21 13:26:07 · 17557 阅读 · 1 评论 -
基于gibbs采样的topic over time
代码参考:https://github.com/ahmaurya/topics_over_time,如有侵权,请告知删除~ 吉布斯采样(Gibbs sampling)是统计学中用于马尔科夫蒙特卡洛(MCMC)的一种算法,用于在难以直接采样时从某一多变量概率分布中近似抽取样本序列。该序列可用于近似联合分布、部分变量的边缘分布或计算积分(如某一变量的期望值)。某些变量可能为已知变...原创 2018-12-17 20:58:01 · 1360 阅读 · 12 评论