Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 4——神经网络（一）_定义: 一个(n, d, a, c)or集中 (concentrator ) 是一个二分多图 g(r-CSDN博客

本文链接：https://blog.csdn.net/stalbo/article/details/78190655

此系列为 Coursera 网站机器学习课程个人学习笔记（仅供参考）
课程网址：https://www.coursera.org/learn/machine-learning
参考资料：http://blog.csdn.net/scut_arucee/article/details/50144225

一、前言

1.1 分类器

当我们用机器学习算法构造一个汽车识别器时，我们需要一个带标签的样本集，其中一部分是汽车，另一个部分可以是其他任何东西，然后我们将这些样本输入给学习算法，以训练一个分类器。训练完毕后，我们输入一幅新的图像，让分类器判定这是否为汽车。

1.1 神经网络的优势

对于复杂的非线性分类问题，当特征变量个数 $n$ 很大时，用逻辑回归时 logistic 函数 $g(\theta^{T}x)$ 中的 $\theta^{T}x$ 如果用二次多项式表示，则二次项数目很多，约为 $n^{2}$ ，计算复杂度达到 $O(n^{2})$ ；如果用三次多项式表示，则三次项数目更多，复杂度达 $O(n^{3})$ 。

而神经网络能很好的解决上面那种复杂的非线性分类问题。

二、神经网络的模型

2.1 神经元的模型

在一个神经网络里，我们将神经元模拟成一个逻辑单元（logistic unit），如下图黄色圆圈所示。

$x_{1},x_{2},x_{3}$ 是它的输入，向神经元传输一些信息，神经元通过一些计算 $h_{\theta}(x)$ ，然后输出计算结果。这里， $h_{\theta}(x)=g(\theta ^{T}x)=\frac{1}{1+e^{-\theta ^{T}x}}$ 。我们称之为由logistic 函数作为激励函数的人工神经元。与前面内容相对，有时，输入单元中会加一个偏置单元（如上图浅蓝色圆圈所示） $x_{0}$ ， $x_{0}=1$ 。

2.2 神经网络的模型

神经网络是一组神经元的组合，如下：

同样的，有时我们会加上偏置单元，它们的值永远为 $1$ 。图中网络的第一层也叫做输入层（Input Layer），第二层叫做隐藏层（Hidden Layer），隐藏层可以有多层，第三层叫做输出层（Output Layer）。

2.3 神经网络的假设函数

为了解释神经网络具体的计算步骤，我们先来说明一些符号：

$a_{i}^{(j)}$ ——第 $j$ 层第 $i$ 个神经元的激励（神经元读入数据后计算并输出的值）；
$\Theta ^{j}$ ——权重矩阵，控制着从第 $j$ 层到第 $（j+1）$ 层的函数映射。

下面我们看一下隐藏层的神经元是怎么计算它们的值的：

如果神经网络第 $j$ 层有 $s_{j}$ 个单元，第 $(j+1)$ 层有 $s_{j}+1$ 个单元，则 $\Theta ^{j}$ 就是一个 $s_{j+1}∗(s_{j}+1)$ 维的矩阵。（第 $(j+1)$ 层的偏置单元 $a_{0}^{(j+1)}$ 不必求，始终为 $1$ ，但第 $j$ 偏置单元对第 $(j+1)$ 层有影响）
如上图， $\Theta ^{1}$ 是 $3\times 4$ 的矩阵， $\Theta ^{2}$ 是 $1\times 4$ 的矩阵。

三、前向传播

下面我们引入符号 $z_{k}^{(j)}$ 来代替上面式子中括号里的部分：

a(2)1=g(z(2)1) $a_{1}^{(2)}=g(z_{1}^{(2)})$

a(2)2=g(z(2)2) $a_{2}^{(2)}=g(z_{2}^{(2)})$

a(2)3=g(z(2)3) $a_{3}^{(2)}=g(z_{3}^{(2)})$

总之，对于第二层的第 $k$ 个节点：

z(2)k=Θ(1)k,0x0+Θ(1)k,1x1+⋯+Θ(1)k,nxn $z_{k}^{(2)}=\Theta _{k,0}^{(1)}x_{0}+\Theta _{k,1}^{(1)}x_{1}+\cdots +\Theta _{k,n}^{(1)}x_{n}$

我们用向量表示 $x$ 和 $z^{(j)}$ ：

x=⎡⎣⎢⎢⎢⎢x0x1⋮xn⎤⎦⎥⎥⎥⎥z(j)=⎡⎣⎢⎢⎢⎢⎢⎢z(j)1z(j)2⋮z(j)n⎤⎦⎥⎥⎥⎥⎥⎥ $x=\begin{bmatrix} x_{0}\\ x_{1}\\ \vdots \\ x_{n} \end{bmatrix} z^{(j)}=\begin{bmatrix} z_{1}^{(j)}\\ z_{2}^{(j)}\\ \vdots \\ z_{n}^{(j)} \end{bmatrix}$

根据上面的映射关系， $a^{(1)}=x$ ，可知：

z(j)=Θ(j−1)a(j−1) $z^{(j)}=\Theta ^{(j-1)}a^{(j-1)}$

第 $j$ 层激励单元的向量表示：

a(j)=g(z(j)) $a^{(j)}=g(z^{(j)})$

-
计算完 $a^{(j)}$ 后，我们可以给第 $j$ 层添加上偏置单元（ $a_{0}^{(j)}=1$ ）。同前面一层，我们可以得到下一层激励单元的值：

z(j+1)=Θ(j)a(j)，a(j+1)=g(z(j+1)) $z^{(j+1)}=\Theta ^{(j)}a^{(j)}，a^{(j+1)}=g(z^{(j+1)})$

假设第 $（ j+1）$ 层为输出层，则：

hΘ(x)=a(j+1)=g(z(j+1)) $h_{\Theta }(x)=a^{(j+1)}=g(z^{(j+1)})$

这种从输入层的激励开始向前传播到隐藏层，再传播到输出层的行为叫做前向传播(Forward Propagation)。

看了这么多，神经网络到底在做什么呢？

对于上面神经网络的模型那张图，如果不看输入层，只看后面两层：

写出计算公式：

hΘ(x)=Θ(2)1,0a(2)0+Θ(2)1,1a(2)1+Θ(2)1,2a(2)2+Θ(2)1,3a(2)3 $h_{\Theta }(x)=\Theta _{1,0}^{(2)}a_{0}^{(2)}+\Theta _{1,1}^{(2)}a_{1}^{(2)}+\Theta _{1,2}^{(2)}a_{2}^{(2)}+\Theta _{1,3}^{(2)}a_{3}^{(2)}$

忽略一些上下标，看上去很像逻辑回归。

神经网络所做的事情很像逻辑回归，但它不是使用 $x_{0},x_{1},x_{2},x_{3}$ 作为输入特征来训练逻辑回归，而是通过另一组参数 $\Theta^{(1)}$ 将 $x_{0},x_{1},x_{2},x_{3}$ 映射为隐藏层的 $a_{1}^{(2)},a_{2}^{(2)},a_{3}^{(2)}$ 作为输入特征。

四、利用神经网络解决非线性问题

首先，我们先来看下面两张图：

如左图所示， $x_{1},x_{2}$ 只能取0和1，图中只画了4个样本，我们可以把左图看做是右图的简化版本，用叉来代表正样本，圆圈代表负样本。在以前的例子中，我们会通过学习一个非线性的决策边界来区分正负样本，那么神经网络是如何做到的？

下面我们通过几个例子来看一下：

4.1 与运算（AND）

$x_{1},x_{2}\in \left \{0 , 1\right \},y=x_{1}$ $and$ $x_{2}$ ，按下图给神经网络分配权重：

hΘ(x)=a(2)=g(−30+20x1+20x2) $h_{\Theta }(x)=a^{(2)}=g(-30+20x_{1}+20x_{2})$

-
又由于logistic函数 $g(z)$ 有在 $z>4.6$ 时越来越接近 $1$ ，在 $z<−4.6$ 时越来越接近 $0$ 的趋势，如下图：

故我们可以得到神经网络的输出和输入的关系：

x1 $x_{1}$

x2 $x_{2}$

hΘ(x) $h_{\Theta}(x)$

0 $0$

g(−30)≈0 $g(-30)\approx 0$

0 $0$

1 $1$

g(−10)≈0 $g(-10)\approx 0$

1 $1$

0 $0$

g(−10)≈0 $g(-10)\approx 0$

1 $1$

g(10)≈1 $g(10)\approx 1$

可以看到， $h_{\Theta}(x) \approx x_{1}$ $or$ $x_{2}$ ，该神经网络实现了与运算。

4.2 或运算（OR）

$x_{1},x_{2}\in \left \{0 , 1\right \},y=x_{1}$ $and$ $x_{2}$ ，按下图给神经网络分配权重：

hΘ(x)=a(2)=g(−10+20x1+20x2) $h_{\Theta }(x)=a^{(2)}=g(-10+20x_{1}+20x_{2})$

画出真值表：

$x_{1}$	$x_{2}$	$h_{\Theta}(x)$
$0$	$0$	$g(-10)\approx 0$
$0$	$1$	$g(10)\approx 1$
$1$	$0$	$g(10)\approx 1$
$1$	$1$	$g(30)\approx 1$

可以看到， $h_{\Theta}(x) \approx x_{1}$ $or$ $x_{2}$ ，该神经网络实现了或运算。

4.3 逻辑非（NOT）

$x_{1}\in \left \{0 , 1\right \},y=$ not x_{1}$，按下图给神经网络分配权重：

hΘ(x)=a(2)=g(10−20x1) $h_{\Theta }(x)=a^{(2)}=g(10-20x_{1})$

画出真值表：

$x_{1}$	$h_{\Theta}(x)$
$0$	$g(10)\approx 1$
$1$	$g(-10)\approx 0$

可以看到， $h_{\Theta}(x) \approx$ not x_{1}$，该神经网络实现了逻辑非运算。

4.4 (NOT $x_{1}$ ) AND (NOT $x_{2}$ )

按下图给神经网络分配权重：

可以自己画真值表验证。

4.5 同或运算（XNOR）

按下图给神经网络分配权重：

仔细观察，可知

$a_{1}^{(2)}=x_{1}$ $and$ $x_{2}$ ，即红色部分实现的是AND；
$a_{2}^{(2)}=$ $(not$ $x_{1} )$ $and$ $(not$ $x_{2})$ ，即蓝色部分实现的是(NOT $x_{1}$ ) AND (NOT $x_{2}$ )；
$h_{\Theta }(x)=a_{1}^{(3)}=a_{1}^{(2)}$ $or$ $a_{2}^{(2)}$ ，即绿色部分实现的是OR；

通过真值表，我们会发现这个神经网络确实实现了同或运算（XNOR）。

通过这个例子我们可以看到，复杂函数可以通过一些简单函数的组合来实现。

比如神经网络的第二层可以计算输入层特征变量的函数；第三层可以以第二层为基础，计算更复杂的函数；第四层可以以第三层为基础计算比第三层还要复杂的函数，以此类推。神经网络运用更深的层数可以计算更复杂的函数，使其作为特征传递给最后一层的逻辑回归分类器，更准确地预测分类结果。

五.神经网络在多类别分类中的应用

在多类别分类中，我们的输出并不是一个数，而是一个向量，例如有一个三类别分类问题，我们要识别一个物体是行人，小汽车，摩托车还是卡车，则神经网络的模型可以如下图：

最后一层的输出层相当于有4个逻辑回归的分类器， $h_{\Theta }(x)\in \mathbb{R}^{4}$ ，更具体的说：

训练数据集是 $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots ,(x^{(m)},y^{(1)})$ 。 $y^{(i)}$ 一定是上面4个列向量中的一个。神经网络的目标是使 $h_{\Theta }(x)\approx y^{(i)}$ 。

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

StarCoo

关注关注

0
点赞

踩

1

收藏

觉得还不错? 一键收藏

0
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Coursera-机器学习-Andrew-NG：这是斯坦福大学我的Coursera机器学习的库，Andrew NG课程的作业

02-04

《机器学习之旅——深入探索Andrew NG的Coursera课程》 机器学习，作为现代科技的基石，已经成为数据科学、人工智能和计算机科学领域的热门话题。在这个领域中，Andrew Ng的Coursera机器学习课程堪称经典，它为全球...

Coursera上吴恩达(Andrew Ng)机器学习课程PPT

01-05

吴恩达(Andrew Ng)是世界知名的机器学习和人工智能专家，他在Coursera开设的机器学习课程被全球众多学习者视为入门AI领域的经典资源。这个压缩包中的PPT正是这门课程的重要讲义，涵盖了从基础概念到高级技术的全面...

参与评论您还未登录，请先登录后发表或查看评论

学习NG的机器学习课程

abc50319的专栏

05-15 807

这是小册子是Andrew NG关于机器学习实操性非常强的指导小册子，大家可以多读读 Machine Learning Yearning - NG.pdf 中文翻译版 https://github.com/xiaqunfeng/machine-learning-yearning ...

Coursera机器学习笔记第4周第八章 神经网络：表述（一）

sch的学习笔记

03-12 551

第八章 神经网络：表述（一）第1节动机（Motivations） 8.1 非线性假设参考视频：8 - 1 - Non-linear Hypotheses (10 min).mkv 前面我们学习了逻辑回归，它们可以很好的解决一些线性的分类问题。但是对于非线性问题，它们很难画出分类边界线。如下图。如果要实现非线性模型，需要增加模型复杂度（增加特征组合和特征多次项）...

Coursera吴恩达《优化深度神经网络》课程笔记（1）-- 深度学习的实用层面

热门推荐

红色石头的专栏

10-11 3万+

我的CSDN博客地址：红色石头的专栏我的知乎主页：红色石头我的微博：RedstoneWill的微博我的GitHub：RedstoneWill的GitHub 我的微信公众号：红色石头的机器学习之路（ID：redstonewill）欢迎大家关注我！共同学习，共同进步！ Andrew Ng的深度学习专项课程的第一门课《Neural Networks and...

Coursera吴恩达机器学习课程笔记——神经网络: 学习（Neural Networks: Learning）

yanglamei1962的博客

04-26 370

神经网络的分类问题有两种：二元分类问题（0/1分类）只有一个输出单元（K1多元（K）分类问题输出单元不止一个（K1hΘxaLgΘL−1aL−1gzLL: 神经网络的总层数sl: 第l层激活单元的数量（不包含偏置单元）hΘxk: 分为第k个分类(kth)的概率 $P(y=k | x;\Theta) $K: 输出层的输出单元数量，即类数 - 1yki: 第i个训练样本的第k个分量值yK维向量。

Coursera吴恩达《神经网络与深度学习》

sunlight_meng的博客

12-10 776

吴恩达深度学习—01神经网络和深度学习，总思维导图 https://blog.csdn.net/qq_41890041/article/details/107752760 Coursera吴恩达《神经网络与深度学习》课程笔记（1）-- 深度学习概述 https://zhuanlan.zhihu.com/p/29017066 Coursera吴恩达《神经网络与深度学习》课程笔记（2.1）-- 神经网络基础之逻辑回归 (2.2)–神经网络基础之Python与向量化 https://blog.csdn.

Andrew Ng 机器学习coursera note

09-24

这门课程由斯坦福大学的教授Andrew Ng教授主讲，并通过在线教育平台Coursera向全球开放。该课程的内容非常全面，涵盖了机器学习的各个方面，从基础理论到实际应用，无所不包。为了方便大家学习，我将会对这门课程的...

Andrew Ng：Coursera机器学习课程.md

03-02

### Andrew Ng：Coursera机器学习课程 #### 1. 机器学习导论 机器学习是一种数据处理技术，它使计算机能够从经验中学习而无需显式编程。本章节介绍了机器学习的基本概念、应用场景以及主要类型（监督学习、无监督...

吴恩达老师的机器学习课程个人笔记_Coursera-ML-AndrewNg-Notes.zip

最新发布

08-24

吴恩达老师的机器学习课程个人笔记_Coursera-ML-AndrewNg-Notes

coursera斯坦福Andrew Ng机器学习编程作业答案

12-24

coursera课程，斯坦福Andrew Ng的机器学习编程作业答案（2-9章，共8个），本来也不难，主要是怕哪出遇到死胡同，可以参考一下

干货|吴恩达Coursera课程教你学习神经网络！

数据与算法之美

03-01 2433

吴恩达Coursera机器学习课程系列笔记讲解课程笔记|吴恩达Coursera机器学习 Week1 笔记-机器学习基础干货|机器学习零基础？不要怕，吴恩达机器学习课程笔记2-多元线性回归干货|机器学习零基础？不要怕，吴恩达课程笔记第三周！逻辑回归与正则Neural Networks: Representation1 Motivation之前讲的Linear regression和Logistric

Andrew Ng机器学习课程笔记（十九）之强化学习

danerer的专栏

05-25 839

Preface Markov Decision Processes MDP定义 MDP例子 MDP过程 Value Function Value Iteration Policy Iteration Preface Markov Decision Processes（MDP，马尔科夫决策过程） Value Function（价值函数） Value Iteration（值...

Coursera机器学习笔记第5周第九章 神经网络：学习（一）

sch的学习笔记

03-25 843

第九章 神经网络：学习（Neural Networks: Learning）（一）第1节代价函数和反向传播（Cost Function and Backpropagation） 9.1 代价函数参考视频 : 9 - 1 - Cost Function (7 min).mkv 首先引入一些便于讨论的标记。假设神经网络的训练样本有mmm个，每个样本包含输入xxx和类标签y...

DeepLearning.AI Coursera公开课笔记（课程二第一周）神经网络优化

clearhenry的博客

12-02 1525

图1 神经网络开发流程在进行神经网络项目时，其过程不是一次写好代码就能成功的，而是要经过想法（Idea）->代码（Code）->实验（Experiment）的循环，当实验时发现效果不佳，再进行调整超参数经过多次迭代后才能做出最优的模型。图2 训练集、开发集、测试集其中训练集是用来训练模型的，而开发集是用来测试训练模型并用测试结果来调整模型的超参数来迭代优化模型的，而测试集是最终用来评判模型的效果的。如果没有开发集，其比例为7:3，存在开发集其..

Coursera | Andrew Ng (01-week-4-4.1)—深层神经网络

Self Improvement Lab

01-09 467

该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了 Andrew Ng 课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。- ZJ Coursera 课程 |deeplearning.ai |网易云课堂

Coursera | Andrew Ng (01-week-1-1.2)—什么是神经网络？

Self Improvement Lab

12-08 655

什么是神经网络? 该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了 Andrew Ng 课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。- ZJ Coursera 课程 |deeplearning.ai |网易云

Coursera上的Andrew Ng《机器学习》学习笔记Week1

家辉自留地

01-17 2306

Coursera上的Andrew Ng《机器学习》学习笔记Week1 作者：雨水/家辉，日期：2017-01-17，CSDN博客：http://blog.csdn.net/gobitan 注：本课程结合Octave讲解！Octave是类似MATLAB的数值计算软件。 Lecture 1: Introduction 什么是机器学习？ 机器学习就是不通过显示地编程而赋

Ng在coursera上的机器学习公开课——最终总结

mmc2015的专栏

04-08 1238

认认真真的跟了所有的课程做了所有的习题编了所有的程序最后觉得Ng有些伤感前途是光明的，加油做人！

Stanford Coursera机器学习笔记：Andrew Ng教授课程精华

"Coursera机器学习笔记，详细记录了Andrew Ng教授在Coursera上的机器学习课程内容，包括监督学习、非监督学习、线性回归、多项式回归、逻辑回归和归一化等主题。" 这篇笔记是匿名网友翻译的Coursera上Stanford ...

StarCoo CSDN认证博客专家 CSDN认证企业博客

码龄9年暂无认证

42

原创

17万+

周排名

193万+

总排名

20万+

访问

等级

1991

积分

149

粉丝

201

获赞

49

评论

753

收藏

私信

关注

热门文章

GAN论文阅读——CGAN 38456

GAN论文阅读——原始GAN（基本概念及理论推导） 34265

推荐系统论文阅读——Neural Collaborative Filtering 18442

GAN论文阅读——DCGAN 17049

CS231n课程学习笔记（三）——Softmax分类器的实现 10481

分类专栏

机器学习 11篇

Tensorflow 6篇

推荐系统 3篇

GAN 4篇

Unity3D 1篇

Python 4篇

深度学习 10篇

NLP 2篇

Caffe 4篇

最新评论

GAN论文阅读——原始GAN（基本概念及理论推导）
abababababcde: 3.1最后一句我们其实没有办法求出这个P出来，这就是生成模型的基本想法，是什么意思，”求不出来...“是基本想法吗

GAN论文阅读——原始GAN（基本概念及理论推导）
Fussy2: 有些公式符号没能显示出来

GAN论文阅读——原始GAN（基本概念及理论推导）
一个偶像: 看了好几篇GAN论文的解析，这篇是最通俗易懂的，当然我数学不大好哈哈，感谢博主！

GAN论文阅读——原始GAN（基本概念及理论推导）
Dokiq: 引用「这样我们其实根本没办法求出这个 PG(x) 出来」为啥求不出来？

推荐系统论文阅读——Factorizing Personalized Markov Chains for Next-Basket Recommendation
嗯哼自信点: 您好，原文中“与之前的非个性化MC模型的|U||I|2 和个性化MC模型的 |I|2 个参数相比”，我不太理解。我认为非个性化是|I|^2，个性化是|U||I|^2吧！！

最新文章

windows环境下安装theano

ubuntu下用anaconda安装theano

用Anaconda管理ubuntu虚拟环境

2018年38篇

2017年8篇

目录

目录

分类专栏

机器学习 11篇

Tensorflow 6篇

推荐系统 3篇

GAN 4篇

Unity3D 1篇

Python 4篇

深度学习 10篇

NLP 2篇

Caffe 4篇

目录

评论

被折叠的条评论为什么被折叠? 到【灌水乐园】发言

查看更多评论

添加红包

祝福语

请填写红包祝福语或标题

红包数量
个

红包个数最小为10个

红包总金额
元

红包金额最低5元

余额支付
当前余额3.43元前往充值 >

需支付：10.00元

成就一亿技术人!

领取后你会自动成为博主和红包主的粉丝规则

hope_wisdom
发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值