吴恩达机器学习笔记（三）

qq_45698199

于 2024-09-11 23:11:50 发布

阅读量596

点赞数 17

文章标签：机器学习笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45698199/article/details/141888399

版权

Week3 分类

1.1 逻辑回归

logistic regression

sigmoid function 在信息科学中，由于其单增及反函数单增等性质，常被用作神经网络的阈值函数，将变量映射到0~1之间。

sigmoid function

optional lab：C1_W3_Lab02_Sigmoid_function_Soln

1.2 决策边界

binary boundary

确实这一节课没听太懂，不知道讲了啥

2.1 逻辑回归中的代价函数

cost function for logistics regression

如果还是采用线性回归里的平方差作为代价函数，
逻辑回归的代价函数会有很多局部最小值

为建立一个新的成本函数，以用于逻辑回归，引入loss function

y（真实值）=1时，结合左图，当预测值也为1时，损失几乎为0，预测值为0时，损失最多

y（真实值）=0时，通过损失函数激励或惩罚，帮助算法作出更准确的预测

cost function ：a function of the entire training set

loss function : on the individual training example

optional lab : C1_W3_Lab04_LogisticLoss_Soln

2.2 简化逻辑回归代价函数

simplified cost function

tip : 关于为什么在那么多的代价函数中选择上述那一种，和最大似然估计（maximum likelihood）有关系。有了代价函数，就可以将梯度下降运用到逻辑回归里面了。

optional lab ：C1_W3_Lab05_Cost_Function_Soln

3.1 梯度下降实现

Gradient Descent Implementation

偏导推导过程

尽管逻辑回归的梯度下降公式看起来和线性回归相似，
但二者其实是不同的，
因为f(x)的定义是不一样的

optional lab ： C1_W3_Lab06_Gradient_Descent_Soln

4.1 过拟合问题

The Problem of Overfitting

回归中的过拟合

良好的泛化（generalization）：对以前从未见过的全新示例也能做出良好预测。

术语：underfit = high bias，overfit = high variance

intuition behind the overfitting : algorithm is trying very very hard to fit every single training example.

分类中的过拟合

4.2 解决过拟合

addressing overfitting

collecting more training exampels
select features to include/exclude
regularization: a way to more gently reduce the impacts of some of the features without doing something as harsh as eliminating it outright.仅仅是减小Wj的值（通常不减小b的值），第二种方法相当于直接把特征对应的Wj置0
方法三用的多一点

4.3 正则化

cost function with regularization

正则化是干嘛的：是防止数据过拟合的
过拟合是啥：在训练数据上表现得非常好，但在未见过的测试数据集上表现不佳
正则化怎么实现：政策化通过在损失函数中添加一个正则项，来限制模型的复杂度，从而提高模型的泛化能力。
模型的复杂度是啥：可以暂时理解为字面意思，就是模型的复杂和精细程度。如果模型复杂度高，那么模型的就会比较复杂和精细，可以很好拟合训练数据，甚至包括噪声，训练误差较低，但测试误差却很高。也就是出现了过拟合。所以要控制模型复杂度，防止其过高造成过拟合，过低造成欠拟合。

正则化是在我们不知道哪些是重要特征以及要惩罚的特征（这里也可知，惩罚的特征和重要特征是对应的，也就是不重要的），无法对特征根据不重要性进行删除时，选择使用的，如果可以自主判断出哪些是不重要特征，当然可以直接去除不重要特征。

通常，实现正则化的方式是惩罚所有特征对应的Wj参数

突然有点觉得，加入正则项好像是对大的Wj敏感，并不对不重要特征敏感啊？这样应该是对的，实际中正则项是加到损失函数里，应该是他俩一块儿作用完成减小不重要特征对应的参数从而预防过拟合的任务的，具体看下面的图：

4.4 线性回归的正则方法

regularized linear regression

4.5 逻辑回归的正则方法

regularized logistic regression

疑问

为什么会出现过拟合？

怎么知道过拟合了？

关注

17
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。