生成学习算法(generative learning algorithms)

最新推荐文章于 2018-11-25 08:30:06 发布

花折泪

最新推荐文章于 2018-11-25 08:30:06 发布

阅读量1.1k

点赞数

分类专栏： machine learning 文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013802188/article/details/40313525

版权

machine learning 专栏收录该内容

20 篇文章 3 订阅

订阅专栏

我们之前介绍了一些判别学习算法(discriminative learning algorithms)，例如logistic regression，都是研究p(y|x)，而接下来我们介绍生成学习算法(generative learning algorithms)，是对p(y) 和p(x|y)进行建模，通过最大化联合似然来学习参数：

我们利用Bayes公式来将问题描述为：

然而，我们不需要计算分母：

1. 高斯判别分析(Gaussian discriminant analysis)

这是我们要介绍的第一个生成学习算法。对此，我们有一个基本的假设，即p(x|y)服从多元高斯分布。首先，他是一个n维的分布，有两个参数给定：均值向量协方差矩阵，其中Σ ≥ 0，即称为对称半正定。

被称为马氏距离(Mahalanobis distance)

当n=1时，我们得到普通的正态分布：

当n=2时，得到二维正态分布：

其中ρ = corr (X1 , X2)∈[ 1, 1]

下面是不同协方差矩阵下的二维正态分布：

这里我们有一个疑问，为什么多维的高斯分布是椭圆形的呢？

如果我们绘制x，使得是一个常量，，其中c已经给定，我们就得到一个椭圆。

我们可以对Σ对角化:

U是特征向量的正规矩阵，,是特征值的对角矩阵

因此，有

我们给出二维高斯分布对应的等高线：

多元高斯分布的性质：

我们假设我们的输入数据是独立同分布的，然后参数的最大似然估计：

计算得到的极大似然估计的估计值

当我们面对一个分类问题，而输入特征x又是连续值的时候，我们可以用高斯判别分析(Gaussian Discriminant Analysis),我们对p(x|y)进行建模：

所以有：

其似然估计的log形式为：

满足最大似然的参数形式为：

我们的算法做了下面的事情：

两个高斯分布拥有相同的Σ但是有不同的μ

GDA比logistic regression有更强的假设，是真包含的关系：

事实上，我们还有更一般的结论：

当x|y=1服从参数为η1的指数族分布，x|y=0服从参数为η0的指数族分布，这意味着p(y=1|x)是一个logistic函数。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

花折泪 CSDN认证博客专家 CSDN认证企业博客

码龄11年

60: 原创

17万+: 周排名

90万+: 总排名

14万+: 访问

: 等级

1661: 积分

51: 粉丝

52: 获赞

21: 评论

164: 收藏

私信

关注

热门文章

分类专栏

acm 46篇
opencv 1篇
database
machine learning 20篇

最新评论

独立成分分析（Independent Components Analysis）
WangNa434: 写得太好了，请问最后的例子如何实现？？
1008. 数组元素循环右移问题 (20)
qq_36037874: 大佬思路确实厉害。不过前几种用string实现的方式似乎只能处理个位数，无法处理两位数以上的情况吧。而题目要求的是正整数这个域。
1008. 数组元素循环右移问题 (20)
RyanBronx: 太厉害了
坐标下降法(Coordinate descent)
有硬币就是土豪: 剽窃都不注明出处！这些图，公式都是博主自己打的吗
坐标下降法(Coordinate descent)
我的心永远是冰冰哒: 您好，我有一个问题想请教一下，就在开始证明的最后的那个部分(我没法加入图片，图片网址是https://img-blog.csdn.net/20141026151628490?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMzgwMjE4OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast），f(y）-f(x)的那一步，我能看懂g(y)>g(x),为什么有h(y_i)>h(x_i),这个是怎么得到的，另外这里的h(x_i)是什么意思，是h(x_i)表示的是一个关于分量x_i的凸函数吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。