DMM基础

最新推荐文章于 2024-08-13 08:58:59 发布

我是一只小兔纸咿呀咿呀呦

最新推荐文章于 2024-08-13 08:58:59 发布

阅读量2.8k

点赞数

分类专栏： datamining

本文链接：https://blog.csdn.net/u011860731/article/details/38269315

版权

datamining 专栏收录该内容

53 篇文章 0 订阅

订阅专栏

LDA模型的原理及其应用：http://www.docin.com/p-122070512.html

LDA（latent dirichlet allocation）的应用：http://www.zhizhihu.com/html/y2013/4219.html

LDA解释：http://yinwenpeng1987.blog.163.com/blog/static/162471582201172133847788/

LDA vs PLSI: http://www.zhihu.com/question/23642556

【JMLR’03】Latent Dirichlet Allocation （LDA）- David M.Blei

http://www.xperseverance.net/blogs/2012/03/17/

Latent Dirichlet Allocation(LDA)主题模型算法实现及源码解析：

http://blog.sina.com.cn/s/blog_8eee7fb60101d06p.html

多项式分布：http://blog.csdn.net/tianguokaka/article/details/7710521

主题模型

：http://blog.sina.com.cn/s/blog_9d7bca9f01015580.html

如何使用主题模型？

有了主题模型，我们该怎么使用它呢？它有什么优点呢？我总结了以下几点：

1）它可以衡量文档之间的语义相似性。对于一篇文档，我们求出来的主题分布可以看作是对它的一个抽象表示。对于概率分布，我们可以通过一些距离公式（比如KL距离）来计算出两篇文档的语义距离，从而得到它们之间的相似度。

2)它可以解决多义词的问题。回想最开始的例子，“苹果”可能是水果，也可能指苹果公司。通过我们求出来的“词语－主题”概率分布，我们就可以知道“苹果”都属于哪些主题，就可以通过主题的匹配来计算它与其他文字之间的相似度。
3）它可以排除文档中噪音的影响。一般来说，文档中的噪音往往处于次要主题中，我们可以把它们忽略掉，只保持文档中最主要的主题。
4）它是无监督的，完全自动化的。我们只需要提供训练文档，它就可以自动训练出各种概率，无需任何人工标注过程。
5）它是跟语言无关的。任何语言只要能够对它进行分词，就可以进行训练，得到它的主题分布。
综上所述，主题模型是一个能够挖掘语言背后隐含信息的利器。近些年来各大搜索引擎公司都已经开始重视这方面的研发工作。语义分析的技术正在逐步深入到搜索领域的各个产品中去。在不久的将来，我们的搜索将会变得更加智能，让我们拭目以待吧。

EPANETH 软件是美国环保局软件EPANET 的汉化版本，是一个可以执行有压管网水力和水质特性延时模拟的计算机程序。管网包括管道、节点（管道连接节点）、水泵、阀门和蓄水池（或者水库）等组件。EPANETH 可跟踪延时阶段管道水流、节点压力、水池水位高度以及整个管网中化学物质的浓度。除了模拟延时阶段的化学成分，也可以模拟水龄和进行源头跟踪。
EPANETH 开发的目的是为了改善对配水系统中物质迁移转化规律的理解。它可以实现许多不同类型的配水系统分析。采样程序设计、水力模型校验、余氯分析以及用户暴露评价就是一些例子。EPANETH 有助于评价整个系统水质改善的不同管理策略

混合模型，潜变量和EM算法（mixture model,latent variable and EM algorithm）

http://site.douban.com/182577/widget/notes/10567212/note/271336847/

混合模型：

在统计学中,混合模型是代表一个大群体中存在子群体的概率模型,不要求被观察的数据集认同个人观察属于哪个子群体. 一般,混合模型符合代表大群体观察结果的概率分布的混合分布. 然而,当有关问题的混合分布关系到大群体到其子群体的起源性质时,混合模型常被用来做统计推断,关于小群体的性质,而没有子群体的认同信息。

有些方法实现混合模型的步骤涉及到做子群体认同归属的假设到个人观察结果(或者子群体的权重), 在这种情况下这些步骤可以看着是一类非监督学习或者聚类过程. 并不是所有的推断过程都会涉及这些步骤。混合模型不应该与组合数据的模型混淆, 比如说数据的一部分的和被约束到一个常数上。

在线算法：http://en.wikipedia.org/wiki/Online_algorithm

在线算法(online algorithm)和离线(offline algorithm)算法，离线算法也就是知道了所有的输入，根据某些条件来选取最佳策略，而在线算法就是无法预知到后面的输入，只能按照目前的状况来做出下一步的最好决策，在线算法追求的是与离线算法一样的好结果。

在计算机科学中，一个在线算法是指它可以以序列化的方式一个个的处理输入，也就是说在开始时并不需要已经知道所有的输入。相对的，对于一个离线算法，在开始时就需要知道问题的所有输入数据，而且在解决一个问题后就要立即输出结果。例如，选择排序在排序前就需要知道所有待排序元素，然而插入排序就不必。

因为在线算法并不知道整个的输入，所以它被迫做出的选择最后可能会被证明不是最优的，对在线算法的研究主要集中在当前环境下怎么做出选择。对相同问题的在线算法和离线算法的对比分析形成了以上观点。如果想从其他角度了解在线算法可以看一下流算法（关注精确呈现过去的输入所使用的内存的量），动态算法（关注维护一个在线输入的结果所需要的时间复杂度）和在线机器学习。

一个很好的展示在线算法概念的例子是加拿大旅行者问题，这个问题的目标是在一个有权图中以最小的代价到达一个目标节点，但这个有权图中有些边是不可靠的可能已经被剔除。然而一个旅行者只有到某个边的一个端点时才能确定该边是否已经被移除了。最坏情况下，该问题会变得简单了，即所有的不确定的边都被移除该问题将会变成通常的最短路径问题。