自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 机器学习主题模型之LDA参数求解——Gibbs采样

 LDA参数推导的Gibbs采样方法基于马尔科夫链蒙特卡洛方法,因此首先学习MCMC方法。一、马尔科夫链蒙特卡洛方法MCMC(Markov Chain Monte Carlo)方法是构造适合的马尔科夫链,使其平稳分布为待估参数的后验分布,抽样并使用蒙特卡洛方法进行积分计算,实现了抽样分布随模拟的进行而改变的动态模拟,弥补了传统蒙特卡洛积分只能静态模拟的缺陷。1、蒙特卡洛方法蒙特...

2018-07-26 23:26:03 13207 2

原创 机器学习主题模型之LDA参数求解——变分推断+EM近似

由上一篇可知LDA主要有两个任务:对现有文集确定LDA模型参数α、η的值;或对一篇新文档,根据模型确定隐变量的分布p(β,z,θ|w,α,η)。由于无法直接求出这个后验分布,因此可以考虑使用Laplace近似、变分近似、MCMC、Gibbs采样法等算法求解。 1、变分推断(variational inference)我们希望找到合适的α、η使对似然函数最大化,并求出隐变量的条件概率...

2018-07-22 21:24:00 8192

原创 机器学习主题模型之LDA概念

隐含狄利克雷分布(Latent Dirichlet allocation)是一种生成式统计模型,是泛化的pLSA模型,区别在于LDA假设主题分布是稀疏的Dirichlet prior,即所有文档只覆盖一小部分的主题,且这些主题只频繁地使用一小部分的单词。LDA是三层贝叶斯模型,基于变分方法的近似推理和经验贝叶斯参数估计的EM算法,使用“先验分布”和“数据对数似然”得出“后验分布”,再用后验分布...

2018-07-18 21:33:26 3757

原创 机器学习主题模型之LSA、pLSA、NMF

 一、主题模型(Topic Model)        判断文档相似性的传统方法是通过查看两个文档共同出现的词项(terms,不重复的words)有多少,如TF-IDF等。但这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的词项很少甚至没有,但两个文档是相似的。        主题模型是用来在大量文档中发现潜在主题的一种统计模型。如果一篇文章有一个中心思想,那么一些特定词语会出现的比较...

2018-07-13 12:37:04 9417 2

原创 机器学习之HMM

         机器学习最重要的任务,是根据已观测到的数据(如训练样本)对感兴趣的未知变量(如类别标记)进行推断(inference)。概率图模型是用图表达变量相关关系的概率模型,分为“有向无环图模型/贝叶斯网”和“无向图模型/马尔可夫网”两类。  一、马尔可夫性质        马尔可夫性质(Markov property)是概率论中的一个概念,当一个随机过程在给定现在状态...

2018-07-05 16:21:37 1677

原创 机器学习之EM算法

        EM(Expectation-Maximization)算法是一种启发式的迭代方法,用于含有隐变量Z(latent variable)的概率模型参数Θ的最大似然/最大后验估计。由于含有隐变量不能直接使用MLE、MAP,因此用隐变量的期望来代替它,再通过最大化对数边际似然(marginal likelihood)来逐步逼近原函数的极大值,EM的优点是简单、稳定,但容易陷入局部最优解。...

2018-07-01 11:52:21 1799

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除