深度学习基础概念

最新推荐文章于 2024-09-12 09:11:48 发布

weixin_42013536

最新推荐文章于 2024-09-12 09:11:48 发布

阅读量1.6k

点赞数

文章标签： pytorch

本文链接：https://blog.csdn.net/weixin_42013536/article/details/122431561

版权

语义分割：类似于图像分割，即一张图片对不同事物进行分别标注。
学习率指数衰减机制，实践证明，它也是最有效的。

优化器（Optimizer）
BGD：梯度下降法是最原始，也是最基础的算法
SGD：随机梯度下降法相比较BGD，其实就是计算梯度时根据的数据不同

Top-1 Accuracy是指排名第一的类别与实际结果相符的准确率，
Top-5 Accuracy是指排名前五的类别包含实际结果的准确率。

同时选取Loss和Acc作为评价网络的标准的原因是，在分类问题中，ACC可能更直观，但是它不可微分，LOSS可微分，可以求梯度，可反向传播更新参数，优化模型，但最终我们关心的还是准确度。准确度只是看预测概率最高的那个标签，
通俗解释：loss 是父母给我们报了一堆辅导班，辅以棍棒或是糖果优化算法，诱导我们通过辅导班增强自己的能力，减少我们的能力值与辅导班声称的能力值之间的差距。accuracy 则是我们的高考成绩。
最好的结果loss越小，表示网络优化程度高，acc也随之变高。
而实际情况可能是loss越高，acc也越高。

残差：实际观察值与估计值（拟合值）之间的差，可类比为误差

ResNet出现的作用就是为了解决网络深度变深以后的性能退化问题。

感受野（Receptive Field）：卷积神经网络每一层输出的特征图（feature map）上的像素点在输入图片上映射的区域大小。再通俗点的解释是，特征图上的一个点对应输入图上的区域，如图1所示

修炼内功就可以理解为“预训练”的过程。
预训练的意思就是提前已经给你一些初始化的参数，这个参数不是随机的，而是通过其他类似数据集上面学得的，然后再用你的数据集进行学习，得到适合你数据集的参数，随机初始化的话，的确不容易得到结果，但是这个结果是因为速度太慢，而不是最终的结果不一样。

预训练通常是用大佬（土豪研发）已经训练得来过的参数，直接套在自己的模型上初始化参数，如果是自己要研究一种新的模型，那么预训练的参数不能拿来用。

迁移学习：越浅层所学到的特征越通用，越深层所学到的特征和具体任务关联性就越强。
知识蒸馏：
背景：为了达到和复杂和多参数网络同样的训练效果，进行模型压缩，使之演变为一种小网络模型。
softmax：使之预测出与真实标签最接近的种类，其输出是一个接近one-hot的向量，其中一个值很大，其他的都很小

soft target分布的熵相对高时，其soft target蕴含的知识比比hard target更丰富，

目前大火的BERT这一类预训练+微调的两阶段模型因为效果好和应用范围广在各种自然语言处理任务中疯狂屠榜取得state-of-art

超参数是在开始学习过程之前设置值的参数。相反，其他参数的值通过训练得出。
如学习率（多种模式），深层神经网络隐藏层数。
、
entropy 熵

现阶段，在建立小型高效的神经网络工作中，通常可分为两类工作：
一·**压缩预训练模型。**获得小型网络的一个办法是减小、分解或压缩预训练网络，例如量化压缩(product quantization)、哈希(hashing )、剪枝(pruning)、矢量编码( vector quantization)和霍夫曼编码(Huffman coding)等；此外还有各种分解因子(various factorizations )用来加速预训练网络；还有一种训练小型网络的方法叫蒸馏(distillation )，使用大型网络指导小型网络，这是对论文的方法做了一个补充，后续有介绍补充
二·直接训练小型模型。例如Flattened networks利用完全的因式分解的卷积网络构建模型，显示出完全分解网络的潜力；Factorized Networks引入了类似的分解卷积以及拓扑连接的使用；Xception network显示了如何扩展深度可分离卷积到Inception V3 networks；Squeezenet 使用一个bottleneck用于构建小型网络

模型就像一个容器，训练数据中蕴含的知识就像是要装进容器里的水。当数据知识量(水量)超过模型所能建模的范围时(容器的容积)，加再多的数据也不能提升效果(水再多也装不进容器)，因为模型的表达空间有限(容器容积有限)，就会造成underfitting；而当模型的参数量大于已有知识所需要的表达空间时(容积大于水量，水装不满容器)，就会造成overfitting，即模型的variance会增大(想象一下摇晃半满的容器，里面水的形状是不稳定的。

你可以理解为背诵了词典多少次。背多了，就记牢了。batchsize的大小