吴恩达深度学习-1

本文概述了机器学习中的关键概念,如参数初始化的随机性、张量快速的原因(并行计算)、超参数的定义及其选择技巧,以及正则化(L1、L2和dropout)的重要性。此外,讨论了数据增强、梯度问题(如归一化、梯度消失/爆炸和初始化)、梯度近似和小批量梯度下降在深度学习中的应用。
摘要由CSDN通过智能技术生成

p1-p58

由于大部分内容在复习ML就不赘述了,只记录ML时的疑惑内容。自用笔记

1.参数初始化是怎么弄的?

随机。

2.为什么张量快?

并行计算。

3.超参数是什么?

注意,参数是指w和b。学习率、迭代次数、隐藏层数量、神经元个数、激活函数的选择,这些是超参数。超参数的选择感觉有点凭直觉,因为CPU、GPU、数据等会变,得反复试错。

#3.那机器学习提到的d呢?就是多项式的项数。

正则化

L1:

L2:

其中L2用的多些。

其他正则化方法

随机失活

对于每一个神经元,有50%的概率被丢弃。为了防止过拟合。

生成随机数,阈值(留存率)下的失活,阈值上的保留。留存率为1意味着这一层的神经元全部保留。

使不同的神经元失活进行多次计算,方法叫dropout。类似减少特征的感觉...

增加训练集

一:廉价的方式合成样本。

1.水平翻转

2.随机裁剪图片

3.图像增强、扭曲、变形。

提前终止

没太搞明白。。。就是不找那个最小的J,在一半就停下。

早终止法提前打断了J的梯度下降的过程,同时为了避免过拟合。可替代的就是L2正交法。

正交化

训练过程的问题

归一化

1.均值归一化:把均值订到0,计算各数据对于原点的偏差。

2.方差归一化

3.特征缩放

梯度消失\爆炸

在每一层的权重参数矩阵w中,如果是比单位矩阵大一些的那种样子,到很深的网络后可能会梯度爆炸(矩阵连乘),是指数级增加的。同理梯度消失就是小于1的数连乘后会非常接近0。

深度网络权值的初始化。

当你的网络层数很深时,可能会导致计算的数字非常大,所以我们选择较小的w,通常选择1/n,或者当你的激活函数是ReLU时,使用2/n。

梯度的近似值

用左导数和右导数的均值来代替那一点的导数。吗?

小批量梯度下降

将训练集拆分为微型训练集(mini-batch)

有点急了,直接跳到cnn部分了。为了快速看懂论文

  • 11
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值