第二天学习笔记:Datawhale X 李宏毅苹果书 AI夏令营

今天学的有些小兴奋,终于解锁了很多熟悉但不明就里的术语。

天呢,原来ReLU是“修正线性单元”的意思!Rectified Linear Unit!

但是呢,也有不大对付的地方:好几个地方前言不搭后语。

容我一一道来。

今天就顺序边读边记

线性模型(linear model)== 把模型输入的特征 x 乘上一个权重,再加上一个偏置就得到预测的结果,这样的模型称为线性模型。

1.2.1 分段线性曲线

Hard Sigmoid (Note:文中这里是第一次提这个英文词组很突兀,就那么生硬的摆在那里了)函数的特性是当输入的值,当 x 轴的值小于某一个阈值(某个定值)的时候,大于另外一个定值阈值的时候,中间有一个斜坡。所以它是先水平的,再斜坡,再水平的。

分段线性曲线(piecewise linear curve)可以看作是一个常数,再加上一堆不同线性函数。如果分段线性曲线越复杂,转折的点越多,所需的不同线性函数就越多。

Sigmoid 函数就是 S 型的函数。因为它长得是有点像 S 型,所以叫它 Sigmoid 函数 

其横轴输入是 x1,输出是 y,c 为常数。 

如果 x1 的值,趋近于无穷大的时候,e−(b+wx1) 这一项就会消失,当 x1 非常大的时候,这一条就会收敛在高度为 c 的地方。如果 x1 负的非常大的时候,分母的地方就会非常大,y的值就会趋近于 0

wij 代表在第 i 个 Sigmoid 里面,乘给第 j 个特征的权重,w 的第一个下标代表是现在在考虑的是第一个 Sigmoid 函数

我们可以用矩阵跟向量相乘的方法,写一个比较简洁的写法。

Sigmoid 的数量是一个超参数。

所有的未知的参数,一律统称 θ。损失函数就变成 L(θ)。

要找到 θ 让损失越小越好,可以让损失最小的一组 θ 称为 θ∗

把 N 笔数据随机分成一个一个的批量(batch),一组一组的

把所有的批量都看过一次,称为一个回合(epoch),每一次更新参数叫做一次更新。

一个回合的训练,更新了几次参数?取决于它的批量大小有多大。

1.2.2 模型变形

HardSigmoid 可以看作是两个修正线性单元(Rectified Linear Unit,ReLU)的加总,ReLU 的图像有一个水平的线,走到某个地方有一个转折的点,变成一个斜坡,其对应的公式为 

(note:☀️老天爷,看到这里激动的我嘎嘎的,已经2年了接触这个概念。一直get不到这么缩写的点儿。今儿终于 得偿所愿了!!! 给作者送花🌹🌹🌹)

在机器学习里面,Sigmoid 或 ReLU 称为激活函数(activation function)~~~~(note:书里应该细说一下为啥叫激活函数。激活是什么意思?一般激活是开始live的意思,但是这个函数后边会被重复很多次啊,感觉应该叫复活函数=重复活动/重复劳作 :D)

Sigmoid 或 ReLU 称为神经元(neuron),很多的神经元称为神经网络(neural network)~~~(note:神经元的进入也很尬。突然就冒出来了。硬给俩函数 or say 每一个函数 扣了个名字,硬扣!)

每一排称为一层,称为隐藏层(hiddenlayer),很多的隐藏层就“深”,这套技术称为深度学习。(Note:说每一排感觉不确切。万一就一排呢?也叫隐藏层吗?深这里也不明确。作者应该说‘超过3层以上的机器学习叫深度学习’。你给它一个数量限度,才一目了然。)

人们把神经网络越叠越多越叠越深,2012 年的 AlexNet 有 8 层;两年之后 VGG 有 19 层;后来 GoogleNet 有 22 层;残差网络(Residual Network,ResNet)有 152 层;现在网络都是叠几百层

在训练数据和测试数据上的结果是不一致的,这种情况称为过拟合(overfitting)。(Note:感觉这个概念解释的非常的不好。书里边很多不一致的例子了。但不一定都是过拟合啊。可能本来就是训练不够儿造成的不一致呢)

深度学习的训练会用到反向传播(BackPropagation,BP),其实它就是比较有效率、算梯度的方法。(Note:这个反响传播的概念,就像是‘我给你把这个放这儿了啊,反正我给你拿出来放着了’。🐣且慢,大哥,你为啥没有前言也没有后语的给它晾这儿了?它咋来的?具体嘛意思啊?晾的目的是???)

1.2.3 机器学习框架

测试集就是只有 x 没有 y。

要拿训练集来训练模型,训练的过程分 3 步:

  1. 先写出一个有未知数 θ 的函数,θ 代表一个模型里面所有的未知参数。fθ(x) 的意思就是函数叫 fθ(x),输入的特征为 x,;
  2. 定义损失,损失是一个函数,其输入就是一组参数,去判断这一组参数的好坏;
  3. 解一个优化的问题,找一个 θ,该 θ 可以让损失的值越小越好。让损失的值最小的 θ 为θ∗,
  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值