排序:
默认
按更新时间
按访问量

KL散度(Kullback-Leibler_divergence)

一. 概念 KL-divergence,俗称KL距离,常用来衡量两个概率分布的距离。 根据shannon的信息论,给定一个字符集的概率分布,我们可以设计一种编码,使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码平均需要的比特数...

2013-11-26 16:32:25

阅读数:850

评论数:0

Topic Model的分类总结(LDA变种)

Topic Model的分类总结(LDA变种) Topic models主要可以分为四大类: 1.无监督无层次结构, 主要有:     (1)PLSA(Hofmann 1999),      (2) LDA(Blei et al., 2003),  ...

2013-08-17 22:50:09

阅读数:997

评论数:0

特征选择常用算法综述

1 综述 (1) 什么是特征选择 特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更...

2013-07-27 19:05:43

阅读数:532

评论数:0

Markov chain& MCMC&Gibbs Sampling 总结

3.1 随机模拟 随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在...

2013-06-03 16:00:51

阅读数:1062

评论数:0

LDA的发展过程

摘要:本文讨论的LDA是对于离散数据集,如文本集,的一种生成式概率模型。LDA是一个三层的贝叶斯分层模型,将数据集中每一项,如每个文本,建模为某些未知的topic组成的集合的混合。每个topic又建模为某种混合概率分布。在文本建模中,话题的概率就提供了每个doc的具体表示。 个人理解:1.生...

2013-05-12 22:49:30

阅读数:1547

评论数:0

Gibbs Sampling实现LDA

关于LDA的介绍见前面几篇文章,这里是Gibbs抽样解LDA的实现 可以看到收敛之后主题的结果基本不变 package org.jazywoo.lda; import java.util.ArrayList; import java.util.HashMap; impor...

2013-04-25 21:08:38

阅读数:1224

评论数:1

向量空间模型

在有了tf-idf权重计算之后,一个自然的数学建模的想法是:tf-idf权重矩阵   向量空间模型 把文档看成是一个向量(vector),其中的每个分量都对应词典中的一个词项,分量值为采用tf-idf计算出的权重值。当某词项在文档中没有出现时,其对应的分量值为0。 ...

2013-04-24 13:12:36

阅读数:2323

评论数:0

概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下 第一篇:PLSA及EM算法 第二篇:LDA及Gibbs Samping 第三篇:LDA变形模型-Twitter LDA,TimeUse...

2013-04-24 13:08:38

阅读数:1061

评论数:0

概率语言模型及其变形系列(2)-LDA及Gibbs Sampling

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下 第一篇:PLSA及EM算法 第二篇:LDA及Gibbs Samping 第三篇:LDA变形模型-Twitter LDA,TimeUserLDA...

2013-04-24 13:06:50

阅读数:908

评论数:0

概率语言模型及其变形系列(1)-PLSA及EM算法

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下 第一篇:PLSA及EM算法 第二篇:LDA及Gibbs Samping 第三篇:LDA变形模型-Twitter LDA,TimeUserLDA...

2013-04-24 13:05:54

阅读数:1358

评论数:0

主题模型

两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的...

2013-04-24 12:35:23

阅读数:664

评论数:0

先验概率 后验概率 似然 极大似然估计 极大后验估计 共轭 概念

最近在看LDA,里面涉及到狄利克雷的概念,为了把这个事情搞明白,查了一些相关概率知识, 举个例子,掷硬币,伯努利实验 中随机变量x={正面,背面},正面的概率μ为模型参数,假定做了N次试验,Data 中观察序列为X={正面,正面。。。。反面},正面的次数为k,服从二项分布:p(X...

2013-04-23 23:45:08

阅读数:741

评论数:0

Dirichlet分布

基础知识:conjugate priors共轭先验        共轭先验是指这样一种概率密度:它使得后验概率的密度函数与先验概率的密度函数具有相同的函数形式。它极大地简化了贝叶斯分析。        如何解释这句话。由于P(u|D) = p(D|u)p(u)/p(D),其中D是给定的...

2013-04-23 23:27:51

阅读数:808

评论数:0

Gibbs 采样

1,Gibbs抽样:对P(z),z是向量,按照Gibbs描述的步骤,可以抽取z(1),z(2),...z(n)这n个样本,Gibbs保证这n个样本的分布服从P(z)。   z(0)=(z1,z2,...,zn) Repeat for i = 1 to n     从p...

2013-04-23 18:40:32

阅读数:1127

评论数:0

EM算法

很碰巧,时隔一年了。面对经典的EM算法,我有了新的认识。经常有人谈到它就是"鸡生蛋,蛋生鸡"的解法,这个很通俗,但是只了解到这一层,是远不够的…… EM算法的全名是Expectation Maximization,中文名叫期望最大化算法。它是一个在含有隐变量的模型中常用的...

2013-04-23 18:37:56

阅读数:589

评论数:0

国内语料库建设一览表

英语学习者语料库(书面语及口语) 中国学习者语料库 CLEC(100万) 广外、上海交大 大学英语学习者口语语料库 COLSEC (5万) 上海交大 香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学 中国英语专业语料库 CEME (148万) 南京大学 ...

2013-04-23 18:07:12

阅读数:1142

评论数:0

LDA 主题模型(latent dirichlet allocation) 介绍

LDA作用         传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。         举个例子,有两个句子分别如下:         ...

2013-04-22 23:38:15

阅读数:1640

评论数:1

ICTCLAS2011_JNI学习笔记-ICTCLAS_FileProcess接口

boolean ICTCLAS_FileProcess(byte[] sSrcFilename, int eCodeType, int bPOSTagged, byte[]sDestFilename)接口:该接口与ICTCLAS_ParagraphProcess接口类似,只是该接口用与处理文件,对...

2013-04-18 11:37:26

阅读数:736

评论数:0

ICTCLAS2011_JNI学习笔记-ICTCLAS_ImportUserDictFile及ICTCLAS_SaveTheUsrDic接口

1、int ICTCLAS_ImportUserDictFile(byte[] sPath, int eCodeType)接口:      * Method:     ICTCLAS_ImportUserDictFile      * Parameter:  byte[] sPath  ...

2013-04-18 11:37:06

阅读数:773

评论数:0

ICTCLAS2011_JNI学习笔记-ICTCLAS_SetPOSmap及ICTCLAS_ParagraphProcess接口

1、int ICTCLAS_SetPOSmap(int nPOSmap)         * Method:     ICTCLAS_SetPOSmap         * Parameter:  int nPOSmap             ICT_POS_MAP_SECOND 0 ...

2013-04-18 11:36:47

阅读数:1086

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭