大胃羊-CSDN博客

原创【动手学深度学习】week 11b | 全连接神经网络（FCN）

48 全连接神经网络（FCN）FCN是用深度学习来做语意分割的奠基性工作。用转置卷积层来替换CNN最后的全连接层，从而可以实现对每个像素的预测。传统的全连接层和全局平均池化层，没法获得空间信息。转置卷积层会把最后卷积的输出扩大n倍，实现高宽和原来的图片一样，1×1的卷积会有k个通道，对应k个类别数目，从而实现对全图每个像素的预测/...

2022-02-05 13:07:50 1973

原创【动手学深度学习】week 11a | 语义分割与数据集转置卷积

46 语义分割 Sematic Aug.语义分割就是把图片中每个像素分类到对应的类别中。发展过程：图片分类一般用聚类方法，将图片进行分类；目标检测是对图片的物体的位置和类别进行识别；语意分割就是对每个像素进行分类。应用：背景虚化；路面分割。实例分割 Instance Aug. ：把每个物体的进行标号47 转置卷积背景问题：卷积要么保持高宽不变，要么减半高宽，所以需要转置卷积来增大输入高宽。为什么叫转置？普通的卷积 Y=X∗WY = X * WY=X∗W在实际计算的时候，都是对W构造一个V，

2022-02-05 12:58:58 2431

原创【动手学深度学习】week 10 | R-CNN，SSD，YOLO

R-CNN使用启发式搜索算法来选择锚框使用预训练模型来对每个锚框抽取特征训练一个SVM来对类别分类训练一个线性回归模型来预测边缘框偏移兴趣区域（RoI）池化层把一个锚框分割为n×m块，输出每块里面的最大值，这样无论锚框多大，总是输出nm个值。RoI主要是为了解决锚框大小不同的问题，使得锚框可以被pooling成固定大小的，可以做一个batch的处理。Faster RCNN将图片变成一个特征图，再变成一个特征向量，在特征上对应锚框。这样的CNN不是对每个锚框抽取特征，而是对整个图片抽取特征

2022-02-05 12:43:29 543

原创【跟李沐学AI】week 9b | 物体检测锚框

41 物体检测和数据集物体检测问题：分类+位置（边缘框）边缘框的原点是在左上角，一个边缘框可以通过4个数字来定义。目标检测数据集：每行表示一个物体，包括图片文件名、物体类别、边缘框，COCO是一个很大的数据集。42 锚框 anchor主流的目标检测算法多是基于锚框的，锚框使用流程如下：提出多个称为锚框的区域预测每个锚框中是否有所关注的物体（对应类别预测）如果是，那么预测这个框到真实边缘框的偏移（对应位置的预测），把锚框的位置进行调整IoU - 交并比IoU的作用是计算两个框之间的相

2022-01-28 16:18:21 2076

原创【跟李沐学AI】week5a | 卷积层多输入输出池化层

19 卷积层背景：在输入规模很大的时候（高清图片），单隐藏层MLP的隐藏参数往往过大，所以需要卷积操作来对输入进行处理，减小输出的规模大小。卷积的两个原则：平移不变性（在图像的任意像素位置）kernel移动的时候并不变局部性（只需要局部信息）只使用了一个kernel进行局部特征提取二维卷积/二维交叉相关卷积的定义：Y=X∗W+b Y = X * W + bY=X∗W+b其中输入时X，W是kernel，b是偏差，Y是输出。w和b都是可学习的参数，w的大小（核的大小）是超参数。w

2022-01-28 16:01:53 706

原创【跟李沐学AI】week5b | AlexNet VGG

24 AlexNet 深度卷积神经网路机器学习的网络是什么样的？SVM（支持向量学习）特征提取选择核函数来计算相关性处理凸优化问题漂亮的数学定理几何学抽取特征描述几何（例如多相机）凸优化漂亮定理特征工程如何抽取图像的特征特征描述子：SIFT、SURF视觉词袋（聚类方法）深度学习为何能崛起？因为GPU的高速发展，计算能力比数据的增长速率要快。整个过程是神经网络 - 核方法 - 神经网络ImageNet数据集1000类，1.2M个数据集ALexNet 2

2022-01-28 16:01:32 527

原创【跟李沐学AI】week6a | NiN GoogleLeNet

26 网络中的网络 NiN背景问题：卷积层需要较少的参数，但是卷积层后面的第一个全连接层往往需要较多的参数，VGG达到了102M个。过量的参数很容易造成过拟合，以及把训练时间都花在了访问内存上。所以NiN的思想就是完全不要全连接层，用卷积层来替代。NiN块（之后的网络多是提出局部的一个块架构）使用1×1的卷积来起到全连接层的作用，输出形状和卷积层输出一样。NiN架构无全连接层交替使用NiN块和步幅为2的最大池化层（逐步减少高宽和增大通道数）最后使用全局平均池化层得到输出（输出通道数就是

2022-01-28 16:01:10 375

原创【跟李沐学AI】week 6b | 批量归一化残差网络 ResNet

批量归一化 BN在过往训练中，因为损失在最后面，后面的层训练和更新较快，但是数据在最底部，底部训练较慢，底部更新一遍之后后面的也需要重新更新一次，所以导致整体的收敛很慢。问题：我们在学习底部的时候如何避免变化顶部层？解决方法：批量归一化，固定小批量中的均值和方差再做一个额外调整不同层的均值和方差不会有特别大的变化，这样相当于做了一个宏观的调整。批量归一化层作用原理：可以学习的参数就是方差和均值。一般作用再：全连接层和卷积层输出上，激活函数前（激活函数是非线性，BN是线性变化，只是拉一个比较

2022-01-28 16:00:53 1348

原创【跟李沐学AI】week 7 | 深度学习硬件基础

31 CPU与GPUCPU是串行计算，单次计算的能力更强，但是需要从寄存器中取数据，所以如果计算次数过多，其时间会画到读取数据上面，导致CPU远远达不到最好的计算效果。（如果要提升CPU利用率，方法一是增加并行的核，方法二是提前进行缓存）GPU是并行计算，相当于有几千个计算能力比CPU更差一些的核，这样解决了大量小计算的取数据的问题，可以同时进行上千个线程。例子： CPU对于按行的处理更快，GPU对按列的更快由于CPU和GPU的带宽不同，所以不要频繁在CPU和GPU之间传数据，因为会有带宽限制和同

2022-01-28 16:00:27 2182

原创【跟李沐学AI】week 8 | 数据增广微调

36 数据增广 data augmentation背景问题：不同的色温、光反射会导致模型的泛化性出现问题。方法：在语言中加入不同的背景噪音改变图片的颜色和形状训练：一般的做法是在线生成数据，随机做增强数据，相当于一个正则项。翻转：左右翻转可行，上下翻转不一定可行切割：从图片切割出一块，再变形到固定形状，随机高宽比（[3/4、4\3]）、随机大小[8%、100%]、随机位置来进行切割。颜色：改变色调、饱和度、明亮度（0.5、1.5）37 微调 fine-tuning也叫迁移学习，决

2022-01-28 15:59:51 2081

原创【动手学深度学习 | week3a】感知机与多层感知机

感知机

2022-01-28 15:54:18 700

原创【动手学深度学习 | week2b】09 Softmax回归

【动手学深度学习 | week2b】09 Softmax回归

2022-01-28 15:53:49 225

原创【动手学深度学习 | week2a】08 线性回归

08 线性回归线性回归的理论回归（regression）是能为一个或多个自变量与因变量之间关系建模的一类方法。线性回归可以看作最简单的单层神经网络。推导过程——以房屋价格预测为例子：房子的线性假设，房屋价格为面积、年龄等因素的加权和，并受到偏置的影响price=????area⋅area+????age⋅age+????.price=????_{area}⋅area+????_{age}⋅age+????.price=warea⋅area+wage⋅age+b.为什么要使用偏置？偏置

2022-01-28 15:53:33 243

原创【统计学习方法随笔 | 01】全书概述及监督学习概论

统计机器学习　李航

2021-12-28 14:34:20 424

原创 2021 年度总结

大胃羊同学的2021年度总结

2021-12-24 12:07:40 2761

原创目标跟踪小总结

目标跟踪经典论文相对于目标检测，目标跟踪除了需要检测出物体外，还需要给每个物体Re-ID，然后跨帧的跟踪物体，保证同一个物体能够持续被检测到且持续持有相同的Re-ID。所以目标跟踪主要可以分为三步：单帧检测-单帧ReID-跨帧跟踪（KF和匈牙利算法）。单目标跟踪 - 全卷积孪生网络 SiamFC提出了一个端到端的全卷积孪生网路，基本思想就是提供一个模板zzz，以及一个图像xxx，两者都通过φ\varphiφ（也就是AlexNet）初步进行特征提取，然后以zzz作为卷积核，对xxx进行卷积运算，得到一张

2021-12-22 17:05:32 996

原创【目标跟踪 MOT】FairMOT : On the Fairness of Detection andRe-Identification in Multiple Object Tracking

摘要与结论目标检测与再识别(Re-ID)是多目标跟踪的关键技术，近年来取得了显着的进展。然而，很少有人关注在一个网络中同时完成这两个任务。前的尝试最终导致了准确率的下降，主要是因为没有公平地学习re-ID任务，从而导致了许多ID切换。这种不公平表现在两个方面：(1)他们将Re-ID作为次要任务，其准确性严重依赖于主检测任务。因此，训练在很大程度上偏向于检测任务，而忽略了re-ID任务；(2)采用ROI-ALIGN方法提取目标检测中直接借用的Re-ID特征。然而，由于许多采样点可能属于干扰实例或背景，这在表

2021-12-22 16:20:16 734

原创【目标跟踪 MOT】JDE - Towards Real-Time Multi-Object Tracking

摘要

2021-12-22 15:17:27 2293

原创【动手学深度学习 | week1b】05 线性代数 06矩阵计算 07 自动求导

05 线性代数标量# 实例化标量import torchx = torch.tensor(3.0)y = torch.tensor(2.0)向量向量可以看作由标量组成的列表，在数据表示中，一个向量的各个元素可以表示各个指标数据# 定义一个向量x = torch.arange(4)# 通过张量的索引来访问任一元素x[3] ## index从0开始维度:向量的长度，也就是数组的长度len(x) 简单操作：相加，相乘长度：各个元素平方求和开根号矩阵概念：简单操作：相

2021-12-20 16:42:13 877

原创【动手学深度学习 | Week1a】02+03+04 数据操作与数据处理

02 深度学习简介感知领域是什么：人可以快速感知、处理的阶段（英语转中文）。深度学习、计算机视觉、自然语言处理可以说是目前AI领域最大的三块内容。深度学习的应用图片分类（IMAGENET），目前图片分类的误差已经可以媲美人类的精度了物体检测和分割（Mask_RCNN）样式迁移（MxNet-style-transfer）人脸合成（2018）文字生成图片（openai）文字生成（gpt3）无人驾驶广告推荐（下面是一个小案例）机器学习的三类人：业务领域专家、数据科学家、AI专家0

2021-12-17 17:23:54 1657

原创【目标跟踪 MOT】DeepSORT-利用深度关联度量实现简单的在线实时跟踪

摘要在本文中，我们通过整合外观信息来提高SORT的性能。由于这一特性，我们能够在更长的遮挡周期来跟踪对象，从而有效地减少了身份切换的数量。本着原有框架的精神，我们将大部分计算复杂性放在离线的预训练阶段，在那里我们在大规模的人重新识别数据集上学习深度关联度量。在在线应用过程中，我们使用视觉外观空间中的最近邻查询来建立测量到跟踪（measurement-to-track associations ）的关联。实验评估表明，我们的扩展减少了45%的身份交换机数量，在高帧率下获得了极佳的性能。1 简介由于目标检

2021-12-16 21:18:58 1909

原创【目标跟踪 MOT】SORT - SIMPLE ONLINE AND REALTIME TRACKING

摘要文章主要解决多目标实时在线跟踪(MOT)问题，尽管只使用了熟悉的技术(如卡尔曼滤波和匈牙利算法)的基本组合用于跟踪组件，但该方法实现了可与最先进的在线跟踪器相媲美的精度。此外，由于我们的跟踪方法的简单性，跟踪器以260 Hz的速率更新，这比其他最先进的跟踪器快20倍以上。本文提出了一种针对多目标跟踪(MOT)问题的逐检测跟踪框架的精益实现，其中每帧检测对象并表示为边界框。与许多基于批处理的跟踪方法[1,2, 3]相比，这项工作主要针对在线跟踪，其中仅将来自前一帧和当前帧的检测呈现给跟踪器。此外，重点

2021-12-16 16:07:51 839

原创【目标跟踪 SOT】SiamFC -用于对象跟踪的全卷积孪生网络

SiamFC - 全卷积孪生网络摘要任意目标追踪问题的传统方法一般是基于在线学习的方法，只使用训练视频本身的数据，但这种方法限制了可以学习的模型的深度。虽然已经在深度神经网络上有了常识，但是当无法提前知道需要追踪那个目标时，就需要Stochastic Gradient Descent 来改善网络的权重，极大的影响了整个系统的速度。在本文中提出了一个新的端到端全卷积孪生网络(Fully- Convolutional Siamese Network)，使用ILSVRC15数据集进行训练及网络评估。我们的网络

2021-12-14 15:53:42 3794

davidyang_980的博客