斯坦福机器学习教程学习笔记之2

最新推荐文章于 2019-03-29 18:01:18 发布

marsjhao

最新推荐文章于 2019-03-29 18:01:18 发布

阅读量864

点赞数 2

分类专栏：机器学习/深度学习文章标签：神经网络斯坦福学习笔记机器学习正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/marsjhao/article/details/60882291

版权

机器学习/深度学习专栏收录该内容

22 篇文章 12 订阅

订阅专栏

本系列其他部分：

斯坦福机器学习教程学习笔记之1

斯坦福机器学习教程学习笔记之2

斯坦福机器学习教程学习笔记之3

斯坦福机器学习教程学习笔记之4

第七章正则化(Regularization)

1.过拟合的问题

正则化(regularization)的技术，它可以改善或者减少过度拟合问题。

过拟合解决办法：（1）减少特征数量，人工选择或使用一些模型选择算法，例如PCA；（2）正则化，保留所有特征，但是减少参数的大小（magnitude）

2.代价函数

假如我们有非常多的特征，我们并不知道其中哪些特征我们要惩罚，我们将对所有的特征进行惩罚，并且让代价函数最优化的软件来选择这些惩罚的程度。这样的结果是得到了一个较为简单的能防止过拟合问题的假设：

其中λ又称为正则化参数（Regularization Parameter）。注：根据惯例，我们不对θ₀ 进行惩罚。经过正则化处理的模型与原模型的可能对比如下图所示：

如果选择的正则化参数λ过大，则会把所有的参数都最小化了，导致模型变成 hθ(x)=θ₀，也就是上图中红色直线所示的情况，造成欠拟合。

3.正则化线性回归(RegularizedLinear Regression)

正则化线性回归的代价函数为：

梯度下降算法：

可以看出，正则化线性回归的梯度下降算法的变化在于，每次都在原有算法更新规则的基础上令θ值减少了一个额外的值。

正规方程：

4.正则化逻辑回归(RegularizedLogistic Regression)

注意：

1.虽然正则化的逻辑回归中的梯度下降和正则化的线性回归中的表达式看起来一样，但由于两者的h(x)不同所以还是有很大差别。

2.θ₀不参与其中的任何一个正则化。

第八章神经网络：表述(Neural Networks: Representation)

1.非线性假设(Non-linearHypotheses)

2.神经元和大脑(Neurons andthe Brain)

3.模型表示1 (ModelRepresentation I)

每一个a都是由上一层所有的x和每一个x所对应的决定的。（我们把这样从左到右的算法称为前向传播算法( FORWARD PROPAGATION )）。

4.模型表示2(ModelRepresentation II)

我们可以把a0,a1,a2,a3看成更为高级的特征值，也就是x0,x1,x2,x3的进化体，并且它们是由x与决定的，因为是梯度下降的，所以a是变化的，并且变得越来越厉害，所以这些更高级的特征值远比仅仅将x次方厉害，也能更好的预测新数据。

5.举例和直观理解1(Examples andIntuitions I)

6.举例和直观理解2(Examples andIntuitions II)

7.多类分类(MulticlassClassification)

第九章神经网络的学习

1.代价函数

假设神经网络的训练样本有m个，每个包含一组输入x和一组输出信号y，L表示神经网络层数，S_l表示每层的neuron个数(SL表示输出层神经元个数)，S_L 代表最后一层中处理单元的个数。

将神经网络的分类定义为两种情况：二类分类和多类分类，

二类分类：S_L=1, y=0 or 1表示哪一类；

K类分类：S_L=K,yi = 1表示分到第i类；（K>2）

代价函数为：

2.反向传播算法(BackpropagationAlgorithm)

重要的是清楚地知道上面式子中上下标的含义：

l 代表目前所计算的是第几层

j 代表目前计算层中的激活单元的下标，也将是下一层的第j个输入变量的下标。

i 代表下一层中误差单元的下标，是受到权重矩阵中第i行影响的下一层中的误差单元的下标。

3.反向传播算法的直观理解

4.展开参数

5.梯度检验(GradientChecking)

6.随机初始化(RandomInitialization)

到目前为止我们都是初始所有参数为0，这样的

初始方法对于逻辑回归来说是可行的，但是对于神经网络来说是不可行的。如果我们令所有的初始参数都为0，这将意味着我们第二层的所有激活单元都会有相同的值。同理，如果我们初始所有的参数都为一个非0的数，结果也是一样的。我们通常初始参数为正负ε之间的随机值。

7.综合起来

小结一下使用神经网络时的步骤：

网络结构：第一件要做的事是选择网络结构，即决定选择多少层以及决定每层分别有多少个单元。第一层的单元数即我们训练集的特征数量。最后一层的单元数是我们训练集的结果的类的数量。如果隐藏层数大于1，确保每个隐藏层的单元个数相同，通常情况下隐藏层单元的个数越多越好。我们真正要决定的是隐藏层的层数和每个中间层的单元数。

训练神经网络：

1. 参数的随机初始化

2. 利用正向传播方法计算所有的hθ(x)

3. 编写计算代价函数J的代码

4. 利用反向传播方法计算所有偏导数

5. 利用数值检验方法检验这些偏导数

6. 使用优化算法来最小化代价函数

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
斯坦福机器学习教程学习笔记之2

第七章正则化(Regularization)1.过拟合的问题正则化(regularization)的技术，它可以改善或者减少过度拟合问题。过拟合解决办法：（1）减少特征数量，人工选择或使用一些模型选择算法，例如PCA；（2）正则化，保留所有特征，但是减少参数的大小（magnitude）2.代价函数假如我们有非常多的特征，我们并不知道其中哪些特征我们要惩罚，我们将对所有
复制链接

扫一扫

专栏目录

marsjhao CSDN认证博客专家 CSDN认证企业博客

码龄14年

55: 原创

13万+: 周排名

202万+: 总排名

89万+: 访问

: 等级

4954: 积分

360: 粉丝

426: 获赞

65: 评论

1109: 收藏

私信

关注

热门文章

分类专栏

最新评论

cin、!cin作为条件判断原理分析
时光3: 以前有这两个函数？现在没了，vs2019。-----------------------------------basic_ios 的定义，发现它有两个重载函数。operator void *() const 和 bool operator!() const。这两个函数使得流对象可作为判断语句的内容。
cin、!cin作为条件判断原理分析
时光3: basic_ios 的定义，发现它有两个重载函数。operator void *() const 和 bool operator!() const。这两个函数使得流对象可作为判断语句的内容。以前有，现在没了，vs2019
Keras上实现卷积神经网络CNN
一涟河畔、怨人徨: np.random.seed(1337) 这行代码有什么用呀
Keras上实现卷积神经网络CNN
qq_34706232: 实现啥功能？
TensorFlow变量管理
woshifenghaha: 请问，tf.get_variable("foou/baru/u", [1]) 中【1】是什么意思

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。