动手学深度学习
文章平均质量分 72
大胃羊
这个作者很懒,什么都没留下…
展开
-
【动手学深度学习】week 11b | 全连接神经网络(FCN)
48 全连接神经网络(FCN)FCN是用深度学习来做语意分割的奠基性工作。用转置卷积层来替换CNN最后的全连接层,从而可以实现对每个像素的预测。传统的全连接层和全局平均池化层,没法获得空间信息。转置卷积层会把最后卷积的输出扩大n倍,实现高宽和原来的图片一样,1×1的卷积会有k个通道,对应k个类别数目,从而实现对全图每个像素的预测/...原创 2022-02-05 13:07:50 · 1999 阅读 · 0 评论 -
【动手学深度学习】week 11a | 语义分割与数据集 转置卷积
46 语义分割 Sematic Aug.语义分割就是把图片中每个像素分类到对应的类别中。发展过程:图片分类一般用聚类方法,将图片进行分类;目标检测是对图片的物体的位置和类别进行识别;语意分割就是对每个像素进行分类。应用:背景虚化;路面分割。实例分割 Instance Aug. :把每个物体的进行标号47 转置卷积背景问题:卷积要么保持高宽不变,要么减半高宽,所以需要转置卷积来增大输入高宽。为什么叫转置?普通的卷积 Y=X∗WY = X * WY=X∗W在实际计算的时候,都是对W构造一个V,原创 2022-02-05 12:58:58 · 2461 阅读 · 0 评论 -
【动手学深度学习】week 10 | R-CNN,SSD,YOLO
R-CNN使用启发式搜索算法来选择锚框使用预训练模型来对每个锚框抽取特征训练一个SVM来对类别分类训练一个线性回归模型来预测边缘框偏移兴趣区域(RoI)池化层把一个锚框分割为n×m块,输出每块里面的最大值,这样无论锚框多大,总是输出nm个值。RoI主要是为了解决锚框大小不同的问题,使得锚框可以被pooling成固定大小的,可以做一个batch的处理。Faster RCNN将图片变成一个特征图,再变成一个特征向量,在特征上对应锚框。这样的CNN不是对每个锚框抽取特征,而是对整个图片抽取特征原创 2022-02-05 12:43:29 · 575 阅读 · 0 评论 -
【跟李沐学AI】week 9b | 物体检测 锚框
41 物体检测和数据集物体检测问题:分类+位置(边缘框)边缘框的原点是在左上角,一个边缘框可以通过4个数字来定义。目标检测数据集:每行表示一个物体,包括图片文件名、物体类别、边缘框,COCO是一个很大的数据集。42 锚框 anchor主流的目标检测算法多是基于锚框的,锚框使用流程如下:提出多个称为锚框的区域预测每个锚框中是否有所关注的物体(对应类别预测)如果是,那么预测这个框到真实边缘框的偏移(对应位置的预测),把锚框的位置进行调整IoU - 交并比IoU的作用是计算两个框之间的相原创 2022-01-28 16:18:21 · 2106 阅读 · 0 评论 -
【跟李沐学AI】week 8 | 数据增广 微调
36 数据增广 data augmentation背景问题:不同的色温、光反射会导致模型的泛化性出现问题。方法:在语言中加入不同的背景噪音改变图片的颜色和形状训练:一般的做法是在线生成数据,随机做增强数据,相当于一个正则项。翻转:左右翻转可行,上下翻转不一定可行切割:从图片切割出一块,再变形到固定形状,随机高宽比([3/4、4\3])、随机大小[8%、100%]、随机位置来进行切割。颜色:改变色调、饱和度、明亮度(0.5、1.5)37 微调 fine-tuning也叫迁移学习,决原创 2022-01-28 15:59:51 · 2092 阅读 · 0 评论 -
【跟李沐学AI】week 7 | 深度学习硬件基础
31 CPU与GPUCPU是串行计算,单次计算的能力更强,但是需要从寄存器中取数据,所以如果计算次数过多,其时间会画到读取数据上面,导致CPU远远达不到最好的计算效果。(如果要提升CPU利用率,方法一是增加并行的核,方法二是提前进行缓存)GPU是并行计算,相当于有几千个计算能力比CPU更差一些的核,这样解决了大量小计算的取数据的问题,可以同时进行上千个线程。例子: CPU对于按行的处理更快,GPU对按列的更快由于CPU和GPU的带宽不同,所以不要频繁在CPU和GPU之间传数据,因为会有带宽限制和同原创 2022-01-28 16:00:27 · 2213 阅读 · 0 评论 -
【跟李沐学AI】week 6b | 批量归一化 残差网络 ResNet
批量归一化 BN在过往训练中,因为损失在最后面,后面的层训练和更新较快,但是数据在最底部,底部训练较慢,底部更新一遍之后后面的也需要重新更新一次,所以导致整体的收敛很慢。问题:我们在学习底部的时候如何避免变化顶部层?解决方法:批量归一化,固定小批量中的均值和方差再做一个额外调整不同层的均值和方差不会有特别大的变化,这样相当于做了一个宏观的调整。批量归一化层作用原理:可以学习的参数就是方差和均值。一般作用再:全连接层和卷积层输出上,激活函数前(激活函数是非线性,BN是线性变化,只是拉一个比较原创 2022-01-28 16:00:53 · 1379 阅读 · 0 评论 -
【跟李沐学AI】week6a | NiN GoogleLeNet
26 网络中的网络 NiN背景问题:卷积层需要较少的参数,但是卷积层后面的第一个全连接层往往需要较多的参数,VGG达到了102M个。过量的参数很容易造成过拟合,以及把训练时间都花在了访问内存上。所以NiN的思想就是完全不要全连接层,用卷积层来替代。NiN块(之后的网络多是提出局部的一个块架构)使用1×1的卷积来起到全连接层的作用,输出形状和卷积层输出一样。NiN架构无全连接层交替使用NiN块和步幅为2的最大池化层(逐步减少高宽和增大通道数)最后使用全局平均池化层得到输出(输出通道数就是原创 2022-01-28 16:01:10 · 387 阅读 · 0 评论 -
【跟李沐学AI】week5b | AlexNet VGG
24 AlexNet 深度卷积神经网路机器学习的网络是什么样的?SVM(支持向量学习)特征提取选择核函数来计算相关性处理凸优化问题漂亮的数学定理几何学抽取特征描述几何(例如多相机)凸优化漂亮定理特征工程如何抽取图像的特征特征描述子:SIFT、SURF视觉词袋(聚类方法)深度学习为何能崛起?因为GPU的高速发展,计算能力比数据的增长速率要快。整个过程是 神经网络 - 核方法 - 神经网络ImageNet数据集1000类,1.2M个数据集ALexNet 2原创 2022-01-28 16:01:32 · 547 阅读 · 0 评论 -
【跟李沐学AI】week5a | 卷积层 多输入输出 池化层
19 卷积层背景:在输入规模很大的时候(高清图片),单隐藏层MLP的隐藏参数往往过大,所以需要卷积操作来对输入进行处理,减小输出的规模大小。卷积的两个原则:平移不变性(在图像的任意像素位置)kernel移动的时候并不变局部性(只需要局部信息)只使用了一个kernel进行局部特征提取二维卷积/二维交叉相关卷积的定义:Y=X∗W+b Y = X * W + bY=X∗W+b其中输入时X,W是kernel,b是偏差,Y是输出。w和b都是可学习的参数,w的大小(核的大小)是超参数。w原创 2022-01-28 16:01:53 · 737 阅读 · 0 评论 -
【动手学深度学习 | week3a】感知机与多层感知机
感知机原创 2022-01-28 15:54:18 · 738 阅读 · 0 评论 -
【动手学深度学习 | week2b】09 Softmax回归
【动手学深度学习 | week2b】09 Softmax回归原创 2022-01-28 15:53:49 · 236 阅读 · 0 评论 -
【动手学深度学习 | week2a】08 线性回归
08 线性回归线性回归的理论回归(regression)是能为一个或多个自变量与因变量之间关系建模的一类方法。线性回归可以看作最简单的单层神经网络。推导过程——以房屋价格预测为例子:房子的线性假设,房屋价格为面积、年龄等因素的加权和,并受到偏置的影响price=????area⋅area+????age⋅age+????.price=????_{area}⋅area+????_{age}⋅age+????.price=warea⋅area+wage⋅age+b.为什么要使用偏置?偏置原创 2022-01-28 15:53:33 · 267 阅读 · 0 评论 -
【动手学深度学习 | week1b】05 线性代数 06矩阵计算 07 自动求导
05 线性代数标量# 实例化标量import torchx = torch.tensor(3.0)y = torch.tensor(2.0)向量向量可以看作由标量组成的列表,在数据表示中,一个向量的各个元素可以表示各个指标数据# 定义一个向量x = torch.arange(4)# 通过张量的索引来访问任一元素x[3] ## index从0开始维度:向量的长度,也就是数组的长度len(x) 简单操作:相加,相乘长度:各个元素平方求和开根号矩阵概念:简单操作:相原创 2021-12-20 16:42:13 · 898 阅读 · 0 评论 -
【动手学深度学习 | Week1a】02+03+04 数据操作与数据处理
02 深度学习简介感知领域是什么:人可以快速感知、处理的阶段(英语转中文)。深度学习、计算机视觉、自然语言处理可以说是目前AI领域最大的三块内容。深度学习的应用图片分类(IMAGENET),目前图片分类的误差已经可以媲美人类的精度了物体检测和分割(Mask_RCNN)样式迁移(MxNet-style-transfer)人脸合成(2018)文字生成图片(openai)文字生成(gpt3)无人驾驶广告推荐(下面是一个小案例)机器学习的三类人:业务领域专家、数据科学家、AI专家0原创 2021-12-17 17:23:54 · 1670 阅读 · 0 评论