NLP
文章平均质量分 81
董蝈蝈
这个作者很懒,什么都没留下…
展开
-
深度学习之Skip-Gram和CBOW原理
Word2vec1. 独热编码热编码(one-hot recording)如果词典如下V=(apple,going,I,home,machine,learning)V = (apple, going, I, home, machine, learning)V=(apple,going,I,home,machine,learning)apple=(1,0,0,0,0,0)machine=(0,0,0,0,1,0)learning=(0,0,0,0,0,1)I,Going,Home=(0,1,1,原创 2020-06-23 15:28:30 · 813 阅读 · 0 评论 -
机器学习之潜在狄利克雷分配(LDA)变分EM算法及python实现
LDA变分EM算法变分推理(variational inference)是贝叶斯学习中常用的,含有隐变量模型的学习方法。变分推理和上一章节的吉布斯采样不同,吉布斯采样的算法通过随机抽样的方法近似计算模型的后验概率,而变分推理通过解析的方法计算模型的后验概率的近似值。本章节内容参考李航博士的《统计学习方法》书中是简化版本的变分EM算法推导,本章节进行完整的推导。1. 变分推理变分推理的思想如下:假设模型是联合概率分布p(x,z)p(x,z)p(x,z),其中xxx是观测变量,zzz是隐变量 ,原创 2020-06-11 14:39:59 · 2415 阅读 · 6 评论 -
机器学习之潜在狄利克雷分配(LDA)吉布斯抽样及python实现
LDALDA 是基于贝叶斯学习的话题模型,是文本集合的生成概率模型,其中假设文本的话题分布式的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布。LDA模型是含有隐变量的概率图模型。本章节使用吉布斯抽样方法,下一章节使用变分EM算法本章节内容参考李航博士的《统计学习方法》1.狄利克雷分布多项分布1)在多项式之前先说说两点分布(Bernoulli分布)两点分布就是指一次随机试验,比如随机扔硬币,结果只有两种0和1,ppp代表结果为正的概率:P(X=1)=p;P(X=0)=原创 2020-06-10 21:48:20 · 3068 阅读 · 1 评论 -
机器学习之最大熵模型及python实现
pass原创 2020-06-01 10:34:18 · 2118 阅读 · 0 评论 -
机器学习之EM算法的原理及推导(三硬币模型)及Python实现
EM算法的简介EM算法由两步组成:E步和M步,是最常用的迭代算法。本文主要参考了李航博士的《统计学习方法》在此基础上主要依据EM算法原理补充了三硬币模型的推导。1.EM算法的原理1.1从一个例子开始三硬币模型假设有3枚硬币,分别记作A,B和C。 这些硬币正面向上的概率分别是 π,p\pi,pπ,p 和 qqq 。进行如下抛硬币试验:1、先抛硬币A, 根据其结果选出硬币B或者硬币C,正面选硬币B,反面选硬币C;2、然后掷选出的硬币,抛硬币的结果,出现正面记作1,出现反面记作0;3、独.原创 2020-05-20 16:37:52 · 3910 阅读 · 5 评论 -
机器学习之朴素贝叶斯原理及python实现
pass原创 2020-05-27 17:53:09 · 448 阅读 · 0 评论 -
机器学习之隐马尔科夫模型(HMM)原理及Python实现 (大章节)
隐马尔可夫模型(hidden Markov model, HMM)是可用于标注问题的统计学模型,是生成模型。1 从一个自然语言处理处理开始原创 2020-05-27 14:37:01 · 2063 阅读 · 3 评论 -
机器学习之高斯混合模型(GMM)及python实现
高斯混合模型高斯混合模型简介高斯混合模型是一种无监督聚类算法Kmeans VS GMM:Kmeans算法可以当作GMM算法的一种特殊形式,或者hard形式,比如一个样本在Kmeans算法中只能归属为其中的一类,但是在GMM算法中可以归为多类。1 高斯混合模型推导1.1 高斯混合模型定义:高斯混合模型是指具有如下形式的概率分布模型:p(y∣θ)=∑k=1Kαkϕ(y∣θk)(1) p(y|\theta) = \sum_{k=1}^K \alpha_k \phi(y|\theta_k) \ta原创 2020-05-21 18:49:27 · 12513 阅读 · 4 评论