逻辑回归学习笔记

最新推荐文章于 2024-01-08 01:31:40 发布

tinyh

最新推荐文章于 2024-01-08 01:31:40 发布

阅读量793

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_15047393/article/details/50996447

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本讲大纲：

这里写图片描述

1.局部加权线性回归（locally weighted linear regression）

给定一个数据集，根据x预测y.
这里写图片描述
最左边的函数为，并不能很好的拟合数据；
中间的加了一个额外的特性，函数为，稍微更好地拟合了数据；
似乎我们增加越多的特性，拟合程度越好；但是增加太多的特性是很危险的，最右边的图是一个五阶的多项式这里写图片描述，虽然很好的拟合了给定的数据集，但是这个并不是一个很好的预测函数。

欠拟合（underfitting）：很明显有一些没有被模型捕获的结构，比如说最左边的图.
过拟合(overfitting)：最右边的就是一个过拟合的例子.

因此说，特性的选择对于学习算法的性能来说是很重要的！！！

在原先的线性回归算法中，对查询点x做预测，我们：
这里写图片描述

而局部加权线性回归算法是：
这里写图片描述
其中，是非负值的权重。
对权重的一个标准选择是：

当很小时，权重接近于1；当很大时，权重很小，接近于0. 因此，的选择是训练集中越接近查询点的样本权重越大. 参数控制着样本集离查询点距离权重下降的快慢，称为波长参数.

非参数化学习算法（non-parametric learning algorithm）：
为了更好的展现假设，我们需要考虑的东西的数量随着训练集而线性增长（局部权重加权回归算法是我们学习的非参数学习算法的第一个例子）.
参数化学习算法（parametric learning algorithm）:
拟合数据只需要固定的、有限的参数（线性回归算法）.

2.概率解释（probabilistic interpretation）

在回归问题中，为什么选择最小二乘法，是否合理？

假设目标变量和输入的关系如下：
这里写图片描述

这里写图片描述表示误差项，不管是建模过程中没有考虑进来的因素，还是一些随机的因素；
根据高斯分布（Gaussian distribution）或者叫做正态分布(Normal distribution),再假设是IID(independently and identically distributed), 也就是说，，
这里写图片描述
等价于：

注意，的意思是在参数的情况下，给定x，y的分布，并不是随机变量.