ML学习笔记b站吴恩达（7-9/19）

最新推荐文章于 2024-07-25 22:24:14 发布

system991106

最新推荐文章于 2024-07-25 22:24:14 发布

阅读量60

点赞数 1

分类专栏： ML 文章标签：学习笔记

本文链接：https://blog.csdn.net/system991106/article/details/133419686

版权

ML 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

课程名称：[中英字幕]吴恩达机器学习系列课程
课程内容：Machine Learning
课程网址：https://www.bilibili.com/video/BV164411b7dx/?p=18&spm_id_from=pageDriver&vd_source=ce1ba3c38b9d663ebfa5fce9f867c7e3
课程进度：7-9

7-1 过拟合问题
几种不同的学习算法linear regression logistic regression
Overfitting problem过拟合问题
Regularization正则化
Ameliorate改善，改进，改良
Plateau(v.)保持稳定水平，处于停滞状态(n.)高原，稳定期，停滞期
Underfitting欠拟合
High bias高偏差
Preconception成见，预想，偏见
Despite不管
Wiggly起伏的，弯弯曲曲的，波浪形的
High variance高方差
High order polynomial高阶多项式
Generalize泛化
在这里插入图片描述

Contort扭曲，使走样
在这里插入图片描述

过多变量或者过少的训练数据都可能引起过拟合问题
在这里插入图片描述

解决过拟合问题的两种方法如上图

7-2 代价函数
在这里插入图片描述

Shrink收缩，缩小，减少
在这里插入图片描述

通常不给theta添加惩罚，从theta1开始如上图，求和1到n
在这里插入图片描述

Lambda作为regularization parameter用于控制两个不同目标之间的取舍
上图第一项是为了更好的拟合数据集，第二项是为了保持参数尽量小以实现正则化
在这里插入图片描述

Theta过大会导致惩罚程度太大，参数都倾向于零，就相当于几乎把参数都变成0只剩下theta0，这样就得到的是一条直线，就欠拟合了，或者说这个假设模型has a strong preconception或者说high bias

7-3 线性回归的正则化
对于linear regression的两种algorithm，一种基于gradient descent梯度下降，一种基于normal equation正规方程
Regularized linear regression正则化线性回归
在这里插入图片描述

Concretely具体地
在这里插入图片描述

Global minimum全局最小值
Degenerate退化，退化的
Singular matrix奇异矩阵 non-invertible matrix不可逆矩阵
在这里插入图片描述

上图中的正则化过程使得矩阵可逆，规避了矩阵不可逆的情况

7-4 logistic回归的正则化
在这里插入图片描述

Octave中的下标都是从1开始
Fminunc会取得最小值
Fminuns(@ costFunction)
在这里插入图片描述

为什么没有lambda/m*theta0呢，这里还没有理解
Non-linear quantifiers非线性分类器

8-1 非线性假设
Non-linear hypotheses
Neural networks神经网络
Representation代表，陈述，表现
Motivate激励，激发
Quadratic平方的，二次方的
Pixel像素
Intensive密集的，集约的，彻底的
Intensity强度，烈度，强烈，紧张
在这里插入图片描述

8-2 神经元和大脑
Pertain适用，存在
Calculus微积分
Process处理
Fascinate迷住，入迷，深深吸引
Auditory听觉的，听的
Sonar声纳
Approximate近似，接近，近似的，大约的

8-6 模型展示1
Artificial人工的，人造的，人为的
Bias unit偏置单元 bias neuron偏置神经元
Activation function激活函数
Terminology术语
Weight和parameter是等效的，可以称为权重或者参数
在这里插入图片描述

Input layer输入层
Output layer输出层
Hidden layer隐藏层
在这里插入图片描述

Observe观察，观察到，遵守
Activation激活项
Provision规定，条款
在这里插入图片描述

上标是层数，下标左是目标，下标右是来源

8-4 模型展示2
Sequence序列，顺序，次序
Suspicious可疑的，怀疑的，令人怀疑的
Matrix vector operation矩阵向量乘法 matrix vector multiplication
特征向量
Three-dimensional vector三维向量
Notation符号
Forward propagation前向传播
在这里插入图片描述

这里为什么说没有使用输入特征x1x2x3来训练logistic regression，而是自己训练逻辑回归的输入a1a2a3来fit logistic regression？
根据为theta选择的不同参数有事可以学习到一些有趣而且复杂的特征就可以得到一个更好的假设函数（相较于x1x2x3这种初始输入而言）
Architecture架构
在这里插入图片描述

Vectorize向量化
Detailed具体的
Compute计算

8-5 例子与直觉理解1
在这里插入图片描述

Assign赋值，分配，指定，确定，转让，让与
Associate联合，联系，联想
Symmetrical对称的
Negative4.6 -4.6
Approximately近似地
True table真值表
在这里插入图片描述

8-6 例子与直觉理解2
Negation否定，拒绝，反面，对立面
Feasible可行的，行得通的
在这里插入图片描述

XNOR异或
在这里插入图片描述

Visualization可视化图像

8-7 多元分类
Category类别
Multi-class classification多类别分类
One-versus-all一对多
Recognize识别
在这里插入图片描述

实际上是类似于4个logistic regression classifiers，每一个都要识别图中的物体是否是四种类别中的一种
在这里插入图片描述

这里是用四维向量来代替之前的单纯的数值来表示，比对时也是用输出的结果四维向量h（x）和y来进行比较

9-1 代价函数
S subscript L S下标为L
Neuron神经元
Bias unit偏差单元
Vectors that are k dimensional k维向量
在这里插入图片描述

Generalization一般形式
Complicated复杂的
在这里插入图片描述

从1开始是不将偏差项正则化的规定比较常见，不过实际上加上了从0开始也能正常计算运行
最后一层有k个输出单元
Convention公约，协定，协议，常规，惯例

9-2 反向传播算法
Back propagation algorithm反向传播算法
Partial derivative terms偏导数项
在这里插入图片描述

Forward propagation前向传播
在这里插入图片描述

误差项 = activation - actual value
在这里插入图片描述

第一层的是观察项不会有误差因为是从样本中选用的，不需要对输入层考虑误差项
把误差从后面的层传到前面的层，这就是back propagation
Derivation推导过程
Accumulator累加项
在这里插入图片描述

J=0对应的是偏差项，所以不加额外的标准化项
计算出的这个delta项就是cost function的导数

9-3 理解反向传播
Mechanically机械地，用机械
Illustrate说明，解释，显示
在这里插入图片描述

9-4 使用注意：展开参数
Unroll展开，摊开，铺开
在这里插入图片描述

输入参数是theta，返回代价值和导数值，上图中的theta和initialTheta都默认是vector形式，gradient也是vector形式
下面是把相关向量展开和获取的过程
在这里插入图片描述
这个合并再重组的过程有点不太理解是为什么
使用矩阵表达式的好处是当参数以矩阵形式存储时进行正向传播和反向传播会更方便，参数以矩阵形式储存也更容易充分利用向量化实现
向量表达式的好处是，有相关矩阵，使用一些高级的优化算法时，这些算法通常会要求参数展开成一个长向量的形式

9-5 梯度检测
Gradient checking梯度检验
Estimate估计
Epsilon
Slope斜率
Vertical height
Horizontal width
One-sided difference单侧差分 two-sided difference双侧差分
双侧差分的结果更准确一点
在这里插入图片描述

DVec是反向传播得到的代价函数导数，与这个结果进行比对，如果二者相等或接近就说明反向传播的实现是正确的

梯度检测用的代码计算量是非常大的，所以确认反向传播没有问题就要把梯度检测关掉，反向传播比梯度检验要快很多，不及时禁用梯度检验代码，程序运行会非常慢

9-6 随机初始化
Random initialization
为theta提供一些初始值
在这里插入图片描述

全部初始化为零不是好的选择，会出现高度冗余的现象highly redundant representation
Problem of symmetric weights对称权重问题
随机初始化就是为了解决上面的这个问题
在这里插入图片描述

Random（10，11）生成一个10*11矩阵，所有元素都介于0和1之间

9-7 组合到一起
在这里插入图片描述

较为合理的神经网络结构如上图第一种，隐藏层默认一层，如果多隐藏层则各隐藏层神经元数量相等较好，隐藏层数多较好但是计算量会偏大
Hidden units隐藏单元数和输入特征数相匹配或者比输入特征数大几倍比较好
Curly braces大括号
Take into account考虑在内
在这里插入图片描述

Non-convex function非凸函数
非凸函数的特点还需要进一步理解
Theoretically理论上地
Susceptible敏感，可能的，可以的，感情丰富的，易受影响
Guarantee
Global optimum全局最优值
Local minimum局部最小值
在这里插入图片描述

Pretend假装，佯装，模拟
在这里插入图片描述

反向传播就是为了算出梯度下降的方向

9-8 无人驾驶
Autonomous driving
Steer控制，操纵，驾驶，引导
confidence置信度
remarkable显著的，非凡的，引人注目的

system991106

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ML学习笔记b站吴恩达（7-9/19）

Theta过大会导致惩罚程度太大，参数都倾向于零，就相当于几乎把参数都变成0只剩下theta0，这样就得到的是一条直线，就欠拟合了，或者说这个假设模型has a strong preconception或者说high bias。梯度检测用的代码计算量是非常大的，所以确认反向传播没有问题就要把梯度检测关掉，反向传播比梯度检验要快很多，不及时禁用梯度检验代码，程序运行会非常慢。向量表达式的好处是，有相关矩阵，使用一些高级的优化算法时，这些算法通常会要求参数展开成一个长向量的形式。
复制链接

扫一扫

专栏目录