机器学习（andrew ng）第三课

最新推荐文章于 2024-10-08 20:27:53 发布

weixin_34408717

最新推荐文章于 2024-10-08 20:27:53 发布

阅读量80

点赞数

文章标签：人工智能数据结构与算法

原文链接：http://www.cnblogs.com/mutex/p/3462219.html

版权

局部线性加权回归

假如数据分布在上面的曲线中，我们用一条直线肯定无法进行拟合。

假如我们想知道坐标为x对应的值，那么我们就可以在两条红线中间进行线性拟合，就是假设两条竖直红线之间的部分数据是线性的。这就是局部线性回归。

在传统的线性回归中，我们的最小化目标函数和输出是这样的：

在局部线性回归中，我们的最小化目标函数和输出是这样的：

注意，这里多了一个w，

这个多加的参数非常有意思，当横轴上其他数据离我们要求的x的距离非常远的时候，w就接近于0.反之，w就接近于1.这样可以带来这种效果：里x越远的值，其分类错误越是被忽略（权值越小）。离x越近的值，其分类错误越被重视（权值越大）。这种算法每次预测一个值时，就要重新进行整个数据集的处理以进行拟合。所以对于训练数据较大的情况也是不合适的。andrew ng提到可以用KD-tree的方法解决这个问题。

线性模型的概率解释

首先解释为什么最小二乘是有效的。

最后一项ε可以看做对未知错误的捕获。比如说还有很多条件或者因素或者噪声我们没考虑到，都把它们归结到最后一项ε中。我们假设ε是符合独立同分布的。而且符合均值为0，方差为的高斯分布。那么ε的概率密度函数即

符合以上条件后，我们可以得出y也是符合以x为条件，θ为参数的高斯分布：

注意，上面θ的前面是分号，表示不知道θ的值，但是θ肯定不是随机变量。把上面的这个式子表示为θ的似然性函数：

X代表整个的数据集。因为假设每个数据是独立的，所以上面的这个式子可以改写为

我们最大化L(θ)，为什么要最大化这个似然性呢？这里表示的意义是选择一个θ，使得数据出现的概率越大越好。这就说明这些数据是可靠的。

为了处理上的方便，我们不直接处理L(θ)，而是要对其取对数：

大家可以分析一下最后得出的结论，前面的一项是固定大小的，我们要最大化L(θ)，就要最小化这一部分：

这个就是我们在最小二乘法中使用的cost function！（参加我的上一篇博客）所以从概率上证明了最小二乘回归的有效性。

Logistic 回归

在上一篇博客中，我们定义

因为假设这个要拟合的函数是线性的。

下面我们假设这个分布是个Logistic 函数类型的。

其中

函数个g(z)被称为logistic函数或者sigmoid函数。函数的二维表示是下面这样的

大家可以看出，我们把输出都归一化到0~1之间了。

同样用概率的方法证明其可行性。我们有如下假设：

上面的2个表达式可以浓缩为下面的一个：

同样我们求θ的最大似然函数：

基于梯度上升的方法，最终我们会得到一个这样的表达式：

细心的读者可能发现这与线性回归最终得到的表达式是一样的！！但是我们假设的前提不是线性的，而是logistic函数的。其原因是表面上看起来这个表达式是一样的，但是其中的h(x)已经非常不一样了，仅仅是大体框架是一样的。

转载于:https://www.cnblogs.com/mutex/p/3462219.html

weixin_34408717

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。