关闭
当前搜索:

深度学习: 处理不平衡样本

Introduction 不平衡样本: 训练样本中 各类别间 数量差距较大。 易导致过拟合,影响在 极端测试集 (量少类样本居多) 上的 泛化能力 。 对不平衡样本的处理手段主要分为两大类:数据层面 (简单粗暴)、算法层面 (复杂) 。 Note: 为了简明扼要,以下称 量少的类别 为 量少类,反之亦然。 数据层面 1. 数据重采样 上采样 下采样...
阅读(173) 评论(0)

深度学习: 迁移学习 (Transfer Learning)

Introduction 把别处学得的知识,迁移到新场景的能力,就是“迁移学习”。 具体在实践中体现为: 将 A任务上 预训练好的模型 放在B任务上,加上少量B任务训练数据,进行微调 。 与传统学习的比较 传统学习中,我们会给不同任务均提供足够的数据,以分别训练出不同的模型: 但是如果 新任务 和旧任务类似,同时 新任务 缺乏足够数据 去从头训练一个新模型,那该怎么...
阅读(106) 评论(0)

深度学习: 模型优化算法

优化算法 类型 优化算法 类型 包括 一阶优化法 和 二阶优化法: 一阶优化法 二阶优化法 具体算法 随机梯度下降法、基于动量的随机梯度下降法、Nesterov型动量随机下降法、Adagrad法、Adadelta法、RMSProp法、Adam法 计算难度 较易 难 运用程度 主流 少有人用 一阶优化法 对比...
阅读(130) 评论(0)

深度学习: 如何训练网络

Introduction 目的: 快速 有效 地 拟合 。 手段: 随机批处理、学习率、批规范化、模型优化算法、迁移学习。 随机批处理 随机批处理,mini-batch,一种 在模型每轮 (epoch) 训练进行前将训练数据集随机打乱 (shuffle) 的 训练机制。 可以防止模型 猜到 “出样本顺序” 。 作用: 防 过拟合 。 合理的学习率 学习率,lear...
阅读(110) 评论(0)

深度学习: 学习率 (learning rate)

Introduction 学习率 (learning rate),控制 模型的 学习进度 : 学习率大小 学习率 大 学习率 小 学习速度 快 慢 使用时间点 刚开始训练时 一定轮数过后 副作用 1.易损失值爆炸;2.易振荡。 1.易过拟合;2.收敛速度慢。 学习率设置 在训练过程中,一般根据训练轮数...
阅读(100) 评论(0)

深度学习: 网络超参数设定

Introduction 网络超参数包括: 输入图像像素、卷积层参数、池化层参数。 输入图像像素 应事先将图像统一压缩至 2n" role="presentation" style="position: relative;">2n2n2^{n} 大小。 好处: 同规格输入 才能得到 同规格输出; 防止无法输入全连接层(因为全连接层的输入大小已经被提前写死了); 便于多GPU并...
阅读(110) 评论(0)

深度学习: 细粒度图像识别 (fine-grained image recognition)

Introduction 细粒度图像识别 (fine-grained image recognition),即 精细化分类 。 精细化分类 识别出物体的大类别(比如:计算机、手机、水杯等)较易,但如果进一步去判断更为精细化的物体分类名称,则难度极大。 最大的挑战在于,同一大类别下 不同 子类别 间的 视觉差异 极小。因此,精细化分类 所需的图像分辨率 较高。 目前,精细化分类...
阅读(207) 评论(0)

深度学习: 注意力模型 (Attention Model)

Introduction 注意力模型,Attention Model 。 是根据人对画面 关注度权重 的 分布不均,而设计的一种新的深度学习模型。 注意力焦点 由下图可看出,人们会把注意力更多投入到人的脸部,文本的标题以及文章首句等位置: 运用 注意力模型最近几年在深度学习各个领域被广泛运用于 图像处理、语音识别 和 自然语言处理 等领域。 [1] 深度学习中的注意力机...
阅读(100) 评论(0)

深度学习: 随机失活 (dropout)

Introduction 随机失活,dropout,2012年于AlexNet中被提出。 Note : - 只针对 全连接层 进行操作; - 训练阶段和测试阶段的操作不同。 训练阶段 按概率p 随机 将神经元 置 0 [如下(b)图],以 缓解 神经元之间 隐形的协同适应,从而达到降低模型复杂度的目的: 别看dropout之后的网络只是原网络的一个 子网络 ,复杂度不比原网络...
阅读(107) 评论(0)

深度学习: Zero-shot Learning / One-shot Learning / Few-shot Learning

Introduction 在 迁移学习 中,由于传统深度学习的 学习能力弱,往往需要 海量数据 和 反复训练 才能修得 泛化神功 。为了 “多快好省” 地通往炼丹之路,炼丹师们开始研究 Zero-shot Learning / One-shot Learning / Few-shot Learning。 爱上一匹野马 (泛化能力),可我的家里没有草原 (海量数据) 。 Learning类型...
阅读(166) 评论(0)

深度学习: 网络正则化

Introduction 正则化,regularization,也即 约束 。是防止过拟合的诸多手段之一,很常用。 通过 限制 参数值域空间,显式地 控制了 模型复杂度,从而避免了过拟合。 正则化手段 正则化手段包括了: L1正则化、L2正则化、Elastic网络正则化、最大范数约束、随机失活、使用验证集。 L1正则化 假设待正则的网络层参数为 ω" role=...
阅读(86) 评论(0)

深度学习: 过拟合 (overfitting)

Introduction 过拟合,overfitting,指的是 模型 对训练数据的 抽样误差 也进行了 很好的拟合 ,是一种 无监督下 的 矫枉过正 。 好比自动吸尘机器人帮你把家里的灰尘清干净了,然后顺道把你丢地上的臭袜子也一块吸了进去。。。 在机器学习和深度学习中,过拟合 是 泛化能力 的天敌。 症状 训练集上表现好,测试集上表现差: 上图中,验证误差 开始回升 的时间点...
阅读(76) 评论(0)

深度学习: 目标函数

Introduction 目标函数 是 深度学习之心,是 模型训练 的 发动机 。 目标函数 (object function) = 损失函数 (loss function) = 代价函数 (cost function) 作用: 计算 预测结果 与 真实标记 之间的 误差,并通过 误差反向传播 算法,指挥 着 模型参数 哗啦啦地 刷新 。 目标函数 类型 主要分为 分类任务目标...
阅读(80) 评论(0)

深度学习: Softmax 函数

Introduction Softmax函数,又称 归一化指数函数 ,是 Sigmoid函数 的一种 推广 。 用于将向量 等比例压缩 到 [0, 1]之间,且保证 所有元素之和 为1 。 σ(z)j=ezj∑k=1Kezk" role="presentation">σ(z)j=ezj∑Kk=1ezkσ(z)j=ezj∑k=1Kezk{\displaystyl...
阅读(64) 评论(0)

深度学习: 数据预处理

Introduction 数据预处理 主要分为 数据归一化 和 PCA/ZCA白化 两种方法。 数据预处理 的 时序位置 在数据扩充之后,模型训练之前: 数据采集 –> 数据标记 –> 数据扩充 –> 数据预处理 –> 模型训练 数据归一化 包括 简单缩放 和 去均值 。 简单缩放 为了使得最终的数据向量落在 [0,1] 或 [ -1,1] 的区间内(根据数据情况而定...
阅读(83) 评论(0)

深度学习: 数据扩充 (Data Augmentation)

Introduction 数据扩充(data augmentation),又名 数据增强。 其本质即: 缺少海量数据时,为了保证模型的有效训练,一分钱掰成两半花。 数据扩充方法包括: 简单方法 复杂方法 翻转、旋转、尺度变换、随机抠取、色彩抖动 Fancy PCA、监督式抠取 方法介绍 1. 翻转 包括:水平翻转、垂直翻转、水平垂直翻转。...
阅读(109) 评论(0)

深度学习: 模型压缩

Introduction 预训练后的深度神经网络模型往往存在着严重的 过参数化 问题,其中只有约5%的参数子集是真正有用的。为此,对模型进行 时间 和 空间 上的压缩,便谓之曰“模型压缩” 。 模型压缩技术包括 前端压缩 和 后端压缩 这两部分。 对比 前端压缩 后端压缩 实现难度 较简单 较难 可逆否 可逆 不可逆 成熟运...
阅读(156) 评论(0)

深度学习: ResNet (残差) 网络

Introduction ResNet (残差) 网络 由何恺明、孙剑等大神在2015年的论文 Deep Residual Learning for Image Recognition 中提出。 起因 2015年之前,在层数不多的深度网络模型中,人们通过 设置合理的权重初始化、增加Batch Normalization (批量规范化)、改进激活函数 等等一系列手段,有效缓解了梯度消失,使...
阅读(87) 评论(0)

深度学习: NIN (Network in Network) 网络

Introduction 出自新加坡国立大学2014年的论文Network In Network。 该设计后来为 ResNet 和 Inception 等网络模型所借鉴。 Improvement 先前CNN中 简单的 线性卷积层 [蓝框部分] 被替换为了 多层感知机(MLP,多层全连接层和非线性函数的组合) [绿框部分] : 优点是:1. 提供了网络层间映射的一种新可能;2....
阅读(90) 评论(0)

深度学习: 局部响应归一化 (Local Response Normalization,LRN)

Introduction 局部响应归一化(Local Response Normalization,LRN): 提出于2012年的AlexNet中。 Principle LRN仿造生物学上活跃的神经元对相邻神经元的抑制现象(侧抑制)。 好处有以下两点: 归一化有助于快速收敛; 对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模...
阅读(89) 评论(0)
61条 共4页1 2 3 4 下一页 尾页
    Site Search
    Google 本站
    个人资料
    • 访问:183319次
    • 积分:6959
    • 等级:
    • 排名:第3968名
    • 原创:486篇
    • 转载:14篇
    • 译文:0篇
    • 评论:26条
    About
    博客专栏
    文章分类