产品经理也能动手实践的AI（六）- 从头开始训练一个简单的神经网络-CSDN博客

本文链接：https://blog.csdn.net/neo4pm/article/details/92872298

正文共： 2919字 6图

预计阅读时间： 8分钟

终于把lesson5写完了，这节课太零碎了，把之前的很多例子都穿插进来（SGD、Mnist、Imdb……）而且知识点也非常多，很容易混淆，反而觉得第六课简单，梳理了很多内容，可以边看边和之前的内容贯穿起来。

1.概览

嵌入，矩阵乘积内的一环，拆解后可改造，加入Bias，然后提高准确率
反向传播，训练一波数据的过程（根据loss func 调整 parameters的过程）
从零开始创建CNN，通过Adam算法加速SGD

2.1 机器学习概念

Back Propagation 反向传播：就是这次做菜咸了，下次调整下少放点盐的过程，loss function反应的就是咸味儿，weights指得就是盐
Parameters：相当于烹饪手法，也叫Weights
Activations：相当于食材
Affine Function 仿射函数：相当于炒菜的过程，约等于矩阵乘积，因为用Activations与Parameters进行矩阵乘积时，准说说是Affine Function在工作
Activation Function 激活函数：相当于装盘的过程，把原有的食材位置不变，换一种展示方式，比如ReLU= max(0,x)就是把小于零的部分直接转化成0；Sigmoid，将所有数转化到0，1区间
Universal Approximation Theorem 通用逼近定理：核心构成要素是Affine Function和Activation Function，可以定义任意函数
Embedding：类似于对号入座，将Factor映射到一条条评分记录上，用于之后的loss function运算
Bias：一种特殊的Factor，反应的是一种客观事实，比如这个电影就是很多人都喜欢，而这个参数不会受到反向传播的影响
Factors：用户喜欢一个电影的原因，比如有xx明星，是喜剧，是新电影
Weight Decay 权重衰减：是Regularization的一种，本质上是loss function中的一种惩罚机制，防止Parameters过多导致的overfit

2.2 FastAI概念

ResNet34：能区分1000种物体的图像分类模型
Create_CNN：就是一个迁移学习的过程，把最后一层的Weight，拆成2个，中间放个ReLU，因为不需要识别那么多物种，可能只需要3-5种；然后把之前的Weight都Freeze，这样反向传播的时候不会影响到之前的层
Unfreeze：解冻整个模型，就是反向传播可以作用在所有层的Weights上
Freeze_to：冻结到倒数第几层
Discriminative Learning Rates 有差别的学习率：learn.fit_one_cycle(1, lr=1e-3))
- 只有一个lr，就所有层都应用这个
- slice(1e-3)：最后一层是1e-3，之前都是1e-3/3
- slice(1e-5,1e-3)：最后一层1e-3，第一层1e-5，中间等间距分布
Adam ：就像股票中买a,b两只股票，假设长期市值是趋于稳定的，希望通过合理的资产配置，来达到收益最大化，Adam同时使用Momentum和RMSProp两种策略
- 原始SGD：跌了就抛，涨了就买，于是频繁的在a,b股票中移动资金，到最后没挣几个钱
- Momentum：将本次涨跌只作为10%的因素，剩下90%是基于上次的判断，于是会更快找到合理的配置比例
- RMSProp：累积变化幅度，如果a的梯度每次都很大，则a少变一点，就像有些股票每次涨跌幅度都很大
fit_one_cycle：lr从小到大再到小，Momentum从大到小再到大
交叉熵 Cross-entropy：一种loss function，用于计算多个结果的预测，并且自信的正确预测值loss低，自信的错误预测值loss高
softmax：一种激活函数，让所有数字相加等于1，换句话说就是求每个值的占比

2.3 Python命令

a.sub_：a = a - x
pickle.load：ptyhon的一种文件格式，通过load读取
open_image(path/'black'/'00000021.jpg’)：显示图像，还有如下3种常见的

- data.show_batch(rows=3, figsize=(7,6))
- plt.imshow(x_train[0].reshape((28,28)), cmap="gray") x_train.shape
- interp.plot_top_losses(9, figsize=(15,11))

2.4 Pytorch命令

x,y = next(iter(data.train_dl))：获取DataLoader里的下一个mini-batch

3 如何从头创建一个神经网络，通过3个例子来演示，主要包含forward和backward两部分：

L1 最原始的线性拟合SGD

Forward：

y_hat = x @ a

Backward：

def update():
    loss = mse(y, y_hat)
    if t % 10 == 0: print(loss)
    loss.backward()
    with torch.no_grad():
        a.sub_(lr * a.grad)
        a.grad.zero_()

L2 手写数字拟合 Mnist_Logistic

Forward：

class Mnist_Logistic(nn.Module):
    def __init__(self):
        super().__init__()
        self.lin = nn.Linear(784, 10, bias=True)


    def forward(self, xb): return self.lin(xb)

Backward：

def update(x,y,lr):
    wd = 1e-5
    y_hat = model(x)
    # weight decay
    w2 = 0.
    for p in model.parameters(): w2 += (p**2).sum()
    # add to regular loss
    loss = loss_func(y_hat, y) + w2*wd
    loss.backward()
    with torch.no_grad():
        for p in model.parameters():
            p.sub_(lr * p.grad)
            p.grad.zero_()
    return loss.item()

L3 多层加速手写数字拟合 Mnist_NN

Forward：

class Mnist_NN(nn.Module):
    def __init__(self):
        super().__init__()
        self.lin1 = nn.Linear(784, 50, bias=True)
        self.lin2 = nn.Linear(50, 10, bias=True)


    def forward(self, xb):
        x = self.lin1(xb)
        x = F.relu(x)
        return self.lin2(x)

Backward：

def update(x,y,lr):
    opt = optim.Adam(model.parameters(), lr)
    y_hat = model(x)
    loss = loss_func(y_hat, y)
    loss.backward()
    opt.step()
    opt.zero_grad()
    return loss.item()