机器学习
Raven_shhy
这个作者很懒,什么都没留下…
展开
-
吴恩达机器学习 课程笔记第五周
Gradient checking(梯度检验):在行经梯度下降的时候常会有各种bug,有时候虽然代价函数的值在下降但实际上还有有很大的误差可能是由小bug导致的。我们可以使用梯度检验对其进行检测,保证产生模型的质量。可以使用J(theta+ε)-J(theta-ε)/ε来检验J(theta)的导数n为theta的数量,从theta的第一项开始,将thetaPlus赋值为theta+epsilon,...原创 2018-06-06 15:14:36 · 602 阅读 · 0 评论 -
吴恩达机器学习笔记第八周 非监督学习与维度规约
聚类算法:我们在进行无监督学习的时候面对的数据是没有进行标记的。如图所示:所以我们能看到的数据是一系列如X(1),X(2)........X(m)并没有相对应的y来作参考。就此数据而言, 其中一种可能的结构 是 所有的数据 可以大致地划分成 两个类或组。 因此,像我介绍的 这种划分组的算法, 称为 聚类算法。 这是我们第一种 无监督学习算法。K-means:K-means为最简...原创 2018-07-31 13:05:31 · 860 阅读 · 0 评论 -
变分推断(Variational Inference)
变分推断变分变分推断平均场理论变分下界求解过程(极大化ELOB)一元高斯分布的例子模型比较例子:混合高斯的变分变分分布在概率模型的应用中,一个中心任务是在给定观测(可见)数据变量X的条件下,计算潜在变量Z的后验概率分布p(Z j X),以及计算关于这个概率分布的期望。对于实际应⽤中的许多模型来说,计算后验概率分布或者计算关于这个后验概率分布的期望是不可⾏的。这可能是由于潜在空间的维度太搞,以...原创 2018-11-29 20:55:45 · 10432 阅读 · 2 评论 -
cs224n词向量表示word2vec
cs224n词向量表示word2vecWord2vecSkip-gram predictiongradientWord2vecword2vec模型的核心是构建一个简单、可扩展的快速训练模型。利用语义理论来预测每个单词和它的上下文的词汇两个算法:Skip-grams (SG):预测上下文Continuous Bag of Words (CBOW):预测目标单词两种稍微高效一些的训练方法:...原创 2018-12-02 19:23:57 · 692 阅读 · 0 评论 -
Latent Dirichlet Allocation(LDA主题模型)
LDA主题模型符号与术语词word为离散数据的一个基本单位,使用一个{1,…,V}的词表索引。其中的V是整个语料库中的词的个数。LDA中的参数求解问题LDA对应的概率图模型:我们现在使用LDA面临的首要问题是推断给定文档的隐变量z的后验概率。p(θ,z∣w,α,β)=p(θ,z,w∣α,β)p(w∣α,β)p(\theta,z|w,\alpha,\beta)=\frac{p(\th...原创 2018-12-14 22:03:27 · 924 阅读 · 0 评论 -
CapsNet胶囊网络
胶囊网络本文基于Hinton 17年nips上的一篇论文Dynamic Routing Between Capsules,Hinton在本文中提出了一种对于胶囊网络的可行方案,并没有去尝试探索实现胶囊网络的全局方案。这次Capsule盛宴的特色是“vector in vector out”,取代了以往的“scaler in scaler out”,也就是神经元的输入输出都变成了向量,从而算是...原创 2019-06-11 23:09:28 · 1358 阅读 · 0 评论