Jie Qiao的专栏

专注于机器学习,数据挖掘

核岭回归(Kernel Ridge Regression)

Ridge Regression 我们先考虑最简单的线性回归问题, y=wTx+ϵ, ϵ∼N(0,σ),wi∼N(0,1) y=\mathbf{w}^{T} x+\epsilon ,\ \epsilon \sim \mathcal{N}( 0,\sigma ) ,w_{i} \s...

2019-07-06 22:01:03

阅读数 91

评论数 0

D-Separation:一种概率图结构独立性的判断方法

文章目录D-Separation没有条件集的独立性一般的条件独立当collider作为条件集参考资料 D-Separation 很多的机器学习模型都可以用概率的角度去解释(可以看MLAPP和PRML这两本书),其中一类重要的模型就是概率图模型,而是概率图模型的灵魂就是模型变量间的条件独立性。 因为...

2019-07-03 13:13:06

阅读数 53

评论数 0

使用SVD来求解优化问题最优值

如何使用SVD来求解优化问题最优值 假设我们想要求解如下问题: R∗=argmax⁡R∑i=1nqiTRpi=∑i=1ntr(QTRP)ii=tr(QTRP) R\mathbf{^{*}} =\underset{R}{\operatorname{argmax}}\sum ^{n}_{i=1} q^...

2019-06-18 23:07:02

阅读数 59

评论数 0

Contrastive Divergence:一种结合变分推断与MCMC的方法

本文是对A Contrastive Divergence for Combining Variational Inference and MCMC的笔记整理。 Introduction 这篇文章是将VI和MCMC结合的一篇很有意思的文章。他的基本思想沿用了RBM中的Contrastive Dive...

2019-06-14 11:18:01

阅读数 67

评论数 0

mendeley实现迁移数据到新电脑

首先要实现迁移功能请使用旧版mendeley!从19版开始mendeley就对数据库进行加密没法对数据库进行操作,从而无法实现离线迁移。因此,本人一直使用的是17版的mendeley,下载地址: https://desktop-download.mendeley.com/download/Mend...

2019-04-15 11:01:41

阅读数 469

评论数 0

图卷积神经网络(Graph Convolutional Network, GCN)

文章目录从谱聚类说起RatioCut 切图聚类谱分析GCN从傅里叶级数到傅里叶变换傅里叶级数的直观意义傅里叶变换推导Signal Processing on Graph图上的傅里叶变换参考资料 从谱聚类说起 谱聚类是一种针对图结构的聚类方法,它跟其他聚类算法的区别在于,他将每个点都看作是一个图结构...

2019-03-30 23:47:39

阅读数 756

评论数 4

使用Docker管理你的生产环境

介绍 本文将介绍如何用docker封装你的生成环境,从而实现一次部署到处运行。docker非常适合有多台服务器,或者需要经常切换工作环境的人。比如,在生产环境使用docker,因为开发环境跟生产环境是一致的,因此可以大大减低开发成本。 Docker有两个比较重要的概念,一个是image一个是con...

2019-03-21 12:44:41

阅读数 242

评论数 0

Domain Adaptation理论分析

文章目录A theory of learning from different domainsH-divergenceAnalysis of Representations for Domain Adaptation参考资料 本文是对两篇文章: A theory of learning from...

2019-01-24 15:15:45

阅读数 451

评论数 0

什么是RKHS?

什么是RKHS? RKHS全称叫再生希尔伯特空间(Reproducing kernel Hilbert space). 首先希尔伯特空间H\displaystyle \mathcal{H}H是一个完备的内积空间(完备意味着里面的数列取极限是收敛的),在这个空间里有很多有用的性质,比如说这个空间的...

2019-01-12 13:54:33

阅读数 841

评论数 0

如何证明一个问题是NP-Hard或NP-Complete?

文章目录NP-hard vs NP-CompleteReductionSAT ProblemReducing SAT to Shortest Clique ProblemReducing SAT to Shortest Tour ProblemA List of NP-CompleteSet Ve...

2018-12-23 14:53:05

阅读数 2619

评论数 0

贪婪算法有多好?Submodularity告诉你

文章目录贪婪算法到底有多好?Submodularity告诉你submodularity conditionSubmodularity + Monotonicity = $\displaystyle 1-\frac{1}{e}$ approximation.Cardinality constrain...

2018-12-16 15:31:43

阅读数 993

评论数 0

一文搞懂散度

Divergence Measures 介绍 在机器学习中,我们常常需要用一个分布Q去逼近一个目标分布P,我们希望能够找到一个目标函数D(Q,P)\displaystyle D( Q,P)D(Q,P),计算Q到P的距离。而这一个目标函数,正是Divergence(散度),比如常见的KL-Diver...

2018-09-29 23:27:28

阅读数 7668

评论数 0

从互信息角度理解生成对抗网络:infoGAN

文章目录生成对抗网络 Generative Adversarial Nets从互信息角度理解GANInfoGAN: 一种用了2次变分来近似推断的方法GAN 其实在错误的方向上优化参考资料 生成对抗网络 Generative Adversarial Nets GAN的目标就是要学到一个数据分布为p(...

2018-09-27 16:50:00

阅读数 442

评论数 0

多元函数的泰勒展开公式

泰勒定理 泰勒展开是一个很有趣的方法。应该大部分人都看过下面这么一条定理: 泰勒定理:若函数f(x)在闭区间[a,b]上存在直至n阶的连续导函数,在开区间(a,b)内存在(n+1)阶导函数,则对任意给定的x,x0∈[a,b]x,x0∈[a,b]x,x_0\in [a,b],至少存在一点ξ∈(a...

2018-07-04 10:48:02

阅读数 15668

评论数 0

带你认识神奇的Gumbel trick

The Gumbel soft-max 这是一种重参数化的trick,通过加一个恒定的噪声从而实现采样。如上图例子,首先有logα1log⁡α1\log \alpha_1 然后加上一个gumbel noise G1,最后取最大值,就是我们要的样本。这个过程可以形式化为,设X是离散随机分布...

2018-06-26 21:01:00

阅读数 4159

评论数 0

芝加哥顶级英语写作指南:Style Toward clarity and grace

Style Clarity(清晰) Nominalization Useful Nominalization 小心 Noun+Noun+Noun Cohesion(衔接) Topics Metadiscourse 小结 Stress Themes Point Paragraph=Is...

2018-05-06 20:34:08

阅读数 2320

评论数 0

Python数据相关教程资料整理

Python与R代码对照转换 适用于我这种对R特别熟悉的>_< pandas vs data.table 深入对比数据科学工具箱:Python和R之争 R与python利用jupyter协同工作 Python Cheat Sheets 数...

2018-03-17 14:31:13

阅读数 269

评论数 0

变分自编码器(VAE)

变分自编码器(VAE) 变分自编码器(VAE) 从EM到变分推断 从变分推断到VAE 参考资料 从EM到变分推断 我们假设有一个隐变量z,我们的样本x(i)x(i)x^{( i)}是从pθ(x|z)pθ(x|z)p_{\theta }( x|z)中产生,因为有隐变量的存在...

2018-03-13 17:13:19

阅读数 789

评论数 2

正向跟反向KL距离到底有什么区别?

如果我们要用一个分布q去近似一个分布p,我们一般的做法都是去优化一个KL距离使得他最小,但是KL距离是一个不对称的距离,那么我们优化KL(q||p)KL(q||p)KL(q||p)跟KL(p||q)KL(p||q)KL(p||q)的区别在哪里? 首先考虑第一种KL距离KL(p||q)KL(p||...

2018-03-09 16:52:54

阅读数 431

评论数 0

带你理解EM算法

很多时候,我们都要最大化似然度来求得一个参数θθ\theta 的最优值。但是,很多时候,当我们的模型中存在隐变量的时候(比如,一个词所属的主题,聚类问题中样本的类别, etc.),我们的似然度是很难求的。下面是该似然度的式子,其中z表示不可观测的变量,x表示可观测的变量,由于z是不可观测的,所以,...

2018-03-02 11:33:13

阅读数 764

评论数 1

提示
确定要删除当前文章?
取消 删除