文献阅读之路

最新推荐文章于 2024-08-09 13:43:55 发布

bu volcano

最新推荐文章于 2024-08-09 13:43:55 发布

阅读量1.4k

点赞数

文章标签：神经网络深度学习 python

本文链接：https://blog.csdn.net/bucan804228552/article/details/121105854

版权

一、经典网络【11.2】
14年VGG16实验时发现继续堆叠更深时精度更差
15年Resnet残差网络不是单纯地堆叠，加了一个Identity保证网络有保底
是一个通用网络结构，用于特征提取
【11.4】1995年LeNet使用的AvgPooling
2012年AlexNet是更深的LenNet
①使用的MaxPooling和1111的卷积核，并且做了数据增强
2014年VGG讲述了如何设计网络的规则，卷积块的思想
①使用了3个3x3卷积核来代替7x7卷积核，使用了2个3x3卷积核来代替55卷积核，这样做的主要目的是在保证具有相同感知野的条件下，提升了网络的深度
②采用堆积的小卷积核是优于采用大的卷积核，因为多层非线性层可以增加网络深度来保证学习更复杂的模式，而且代价还比较小（参数更少）
【11.7】
GoogLeNet 提出了inception的卷积网络结构
首先分成四个并行路径，先通过1x1卷积来降低通道数，再进行不同尺度的特征提取以及池化，得到多个路径的信息，最后将不同路径特征进行通道叠加输出
【11.20】VGG精读
VGG延续了Lenet Alexnet这种传统的串行结构将网络堆叠到了最深的19层，如果想要更深的话就不得不更改网络结构
分为5个block，每一块有2、3层卷积，这个也是我们构建网络时需要注意的
不能再加一层是因为得到的7*7特征图不好除以2
像素层面的长宽越来越小语义层面的通道数越来越多
前两层卷积占据了大部分的内存容量（因为图像的长宽原因我想这也是为什么做两次卷积就池化的原因）
全连接的第一层占据了绝大多数的参数容量。
因为卷积核权值共享的原因，所以卷积层的参数不多
【11.21】
防止过拟合的手段都可以叫做正则化

优点：33卷积是一个能够最小包括上下左右中心块的形状
另外可以使用不对称的13和31来替代33卷积
33卷积搭配步长为1的滑动，能够保证图像信息的不丢失；而55或7*7的步长大于1都是跳跃式的滑动
缺点：网络参数量太臃肿，尤其是第一个全连接层
创新点（重点）：采用密集测试训练图片，把图片喂给全卷积网络
全局平均池化是将每一个通道求平均得出一个值
【11.8】
ResNet
分支结构网络，加上了y = x的恒等映射层(identity mapping)，误差最起码起码不会增加
残差块residual使得很深的网络更加容易训练
【11.13】
21年RepVGG：用结构重参数化“复兴”VGG式单路极简架构，一路3x3卷到底，为每一个3x3卷积层添加平行的1x1卷积分支和恒等映射分支，构成一个RepVGG Block。区别在于ResNet是每隔两层或三层加一分支，而我们是每层都加。
低算力设备上，可能不如MobileNet和ShuffleNet系列适用。
21年parnet
【11.30】
resnet
在这里插入图片描述

最后一个D模块在做梯度时因为分支有1，所以连乘部分即使为0也没问题。
【12.21】SEnet

【12.8】
如果想使用VIT则至少需要imagenet-21k的数据量14M
自注意力机制能够在最底层做到关注全局信息了，到后面就可以做到语义信息了
贡献：
vit挖了任务模型上的大坑，实现NLP CV 的大一统的一步，挖了一个多模态的坑
卷积自注意力多层感知机鹿死谁手还未定

二、时间序列
【11.16】
MLPs在序列预测中的应用要求将输入序列分割成较小的重叠子序列，并将这些重叠子序列显示给网络以生成预测。输入序列的时间步长成为网络的输入特征。子序列是重叠的，以模拟一个窗口沿序列滑动，以生成所需的输出。
【12.19】消融实验
消融实验类似于“控制变量法”。
比如说你为了提升baseline的性能，给它加了两个模块A,B，加完之后效果果然提高了很多。

于是你急急忙忙开始写论文，写到你的贡献，你给了两条：1.模块A，2.模块B。但是这样写有个问题：尽管AB同时加上去对模型有提升效果，但是你并没有证明A、B两个模块分别都是有意义的。

所以为了验证A、B两个模块是不是真的都有用，你需要做ablation study。
方法也很简单：在baseline的基础上加上模块A，看效果。在baseline的基础上加上模块B，看效果。在baseline的基础上同时加上模块AB，看效果。
然后结果可能是，实验1和实验2的结果都不如实验3，那么说明AB都是有用的；然而也有可能你会发现实验1的结果和实验3一样，甚至更好。这就说明你的想法是有问题的，模块B其实并没有起到作用，提升只来自于模块A。
综上所述，ablation study就是你在同时提出多个思路提升某个模型的时候，为了验证这几个思路分别都是有效的，做的控制变量实验的工作。
[链接]
三、人类活动识别
【11.17】
将输入信号数据划分为信号窗口，这个窗口按照指定步长和指定宽度对原数据进行截取，使得一个样本中包含窗口宽度大小的采样数据，这种划分样本的方法称为滑动窗口

加速度传感器有x,y,z轴（特征），

2014曾鸣使用三个卷积分别对x、y、z识别
2018先使用二分类识别静态、动态然后再分别识别具体活动
2015不是在一维上卷积，而是把信号转换成图像的二维形式，进行卷积，并且沿着信号的时间轴和信号变量（特别是加速度计和陀螺仪）进行卷积数据。
2016对CNN的使用进行了仔细的研究，结果表明，较大的内核大小的信号数据非常有用，而且池化层的作用有限。

【11.18】
2016为可穿戴活动识别引入了一个新的DNN框架，我们将其称为DeepConvLSTM。这种架构结合了卷积层和循环层。卷积层充当特征提取器，并在特征图中提供输入传感器数据的抽象表示。循环图层为特征图激活的时间动态建模。
删除池化层是其模型体系结构的关键部分，其中在卷积层之后使用池化层会干扰卷积层学习对原始传感器数据进行降采样的能力

人类活动识别任务面临的挑战：
①特征提取的困难
②类别不平衡（意外坠落数据）
③传感器数据的异质性（放在不同人的不同部位具有不同数据）
④数据关联的复杂性
大多数活动识别任务都是基于简单的活动，比如走路和坐着。然而，记录人类日常生活的更有意义的方法是由一系列简单活动组成的复合活动。例如，“洗手”可以表示为{打开水龙头、肥皂、搓手、关闭水龙头}。
因此，精确的活动识别在很大程度上依赖于精确的数据分割技术。同时进行的活动显示了第三个挑战。并发活动发生在用户同时参与多个活动时，例如在观看电视时接听电话。多用户活动也与数据关联的复杂性有关。当多个用户参与一组活动时，识别是很困难的，这通常发生在多个居民的场景中。
【11.26】
博客引用