机器学习
文章平均质量分 94
Jie Qiao
邮箱:358463121@qq.com
展开
-
MCMC算法大统一: Involutive MCMC
蒙特卡洛采样与iMCMC标准采样方法可能很多人都知道只要可以对分布函数F(x)\displaystyle F( x)F(x)求逆,并从均匀分布中采样u,并将u代进逆函数中就能得到x的样本,即x=F−1(u),u∼U(0,1)\displaystyle x=F^{-1}( u) ,u\sim U( 0,1)x=F−1(u),u∼U(0,1)。他的原理是什么?其实他的出发点是找到一个从均匀分布到目标分布的可逆变换g\displaystyle gg:x=g(u)p(x)=p(u)∣dudx∣=pu(g−1(原创 2020-07-22 11:40:13 · 452 阅读 · 0 评论 -
速查:卷积核参数计算公式
卷积核参数计算公式笔记notation:设输入为2维图像,输入大小为i∗ii * ii∗i,并且kernel size=kstride = spadding=p公式1:对于任意的i和k,如果s=1,p=0s=1,p=0s=1,p=0,则o=(i−k)+1o=(i-k)+1o=(i−k)+1公式2:对于任意的i和k,p,如果s=1s=1s=1,则o=(i−k)+2p+1o=(...原创 2020-01-10 16:41:50 · 6877 阅读 · 0 评论 -
核岭回归(Kernel Ridge Regression)
Ridge Regression我们先考虑最简单的线性回归问题,y=wTx+ϵ, ϵ∼N(0,σ),wi∼N(0,1)y=\mathbf{w}^{T} x+\epsilon ,\ \epsilon \sim \mathcal{N}( 0,\sigma ) ,w_{i} \sim \mathcal{N}( 0,1)y=wTx+ϵ, ϵ∼N(0,σ),wi∼N(0,1)...原创 2019-07-06 22:01:03 · 10197 阅读 · 1 评论 -
D-Separation:一种概率图结构独立性的判断方法
文章目录D-Separation没有条件集的独立性一般的条件独立当collider作为条件集参考资料D-Separation很多的机器学习模型都可以用概率的角度去解释(可以看MLAPP和PRML这两本书),其中一类重要的模型就是概率图模型,而是概率图模型的灵魂就是模型变量间的条件独立性。因为有了独立性,才有了各种不同的概率图模型,比如LDA,HMM等等模型。那么概率图中,变量间的独立性是怎么...原创 2019-07-03 13:13:06 · 5538 阅读 · 5 评论 -
使用SVD来求解优化问题最优值以及求解PCA
如何使用SVD来求解优化问题最优值假设我们想要求解如下问题:R∗=argmaxR∑i=1nqiTRpi=∑i=1ntr(QTRP)ii=tr(QTRP)R\mathbf{^{*}} =\underset{R}{\operatorname{argmax}}\sum ^{n}_{i=1} q^{T}_{i} Rp_{i} =\sum ^{n}_{i=1} tr\left( Q^{T} RP\r...原创 2019-06-18 23:07:02 · 2500 阅读 · 0 评论 -
Contrastive Divergence:一种结合变分推断与MCMC的方法
本文是对A Contrastive Divergence for Combining Variational Inference and MCMC的笔记整理。Introduction这篇文章是将VI和MCMC结合的一篇很有意思的文章。他的基本思想沿用了RBM中的Contrastive Divergence方法。他通过采用MCMC的方法来对变分函数q进行抽样从而得到更加准确的变分函数,然后再以此...原创 2019-06-14 11:18:01 · 718 阅读 · 0 评论 -
什么是RKHS?
什么是RKHS?RKHS全称叫再生希尔伯特空间(Reproducing kernel Hilbert space). 首先希尔伯特空间H\displaystyle \mathcal{H}H是一个完备的内积空间(完备意味着里面的数列取极限是收敛的),在这个空间里有很多有用的性质,比如说这个空间的内积可以用来构造范数∥x∥=(x,x)\displaystyle \| x\| =\sqrt{( x,...原创 2019-01-12 13:54:33 · 4510 阅读 · 0 评论 -
从互信息角度理解生成对抗网络:infoGAN
文章目录生成对抗网络 Generative Adversarial Nets从互信息角度理解GANInfoGAN: 一种用了2次变分来近似推断的方法GAN 其实在错误的方向上优化参考资料生成对抗网络 Generative Adversarial NetsGAN的目标就是要学到一个数据分布为p(x)的生成网络G,即希望pG(x)\displaystyle p_{G}( x)pG(x)与Pdat...原创 2018-09-27 16:50:00 · 1412 阅读 · 1 评论 -
多元函数的泰勒展开公式
泰勒定理泰勒展开是一个很有趣的方法。应该大部分人都看过下面这么一条定理:泰勒定理:若函数f(x)在闭区间[a,b]上存在直至n阶的连续导函数,在开区间(a,b)内存在(n+1)阶导函数,则对任意给定的x,x0∈[a,b]x,x0∈[a,b]x,x_0\in [a,b],至少存在一点ξ∈(a,b)ξ∈(a,b)\xi \in (a,b),使得 f(x)=+f(x0)+f ′(x...原创 2018-07-04 10:48:02 · 54276 阅读 · 1 评论 -
带你认识神奇的Gumbel trick
The Gumbel soft-max这是一种重参数化的trick,通过加一个恒定的噪声从而实现采样。如上图例子,首先有logα1logα1\log \alpha_1 然后加上一个gumbel noise G1,最后取最大值,就是我们要的样本。这个过程可以形式化为,设X是离散随机分布P(X=k)∝αkP(X=k)∝αkP(X=k)\propto \alpha_k , 设{Gk}k≤K...原创 2018-06-26 21:01:00 · 14695 阅读 · 0 评论 -
变分自编码器(VAE)
变分自编码器(VAE)变分自编码器(VAE)从EM到变分推断从变分推断到VAE参考资料从EM到变分推断我们假设有一个隐变量z,我们的样本x(i)x(i)x^{( i)}是从pθ(x|z)pθ(x|z)p_{\theta }( x|z)中产生,因为有隐变量的存在,通常pθ(x)=∫pθ(z)pθ(x|z)dzpθ(x)=∫pθ(z)pθ(x|z)dzp_{\th...原创 2018-03-13 17:13:19 · 2257 阅读 · 4 评论 -
正向跟反向KL距离到底有什么区别?
如果我们要用一个分布q去近似一个分布p,我们一般的做法都是去优化一个KL距离使得他最小,但是KL距离是一个不对称的距离,那么我们优化KL(q||p)KL(q||p)KL(q||p)跟KL(p||q)KL(p||q)KL(p||q)的区别在哪里?首先考虑第一种KL距离KL(p||q)KL(p||q)KL(p||q),也被称为M-projection 或 moment projection,定义如...原创 2018-03-09 16:52:54 · 2519 阅读 · 2 评论