深度学习
文章平均质量分 75
Hung武
这个作者很懒,什么都没留下…
展开
-
【学习笔记】模型评估
特征归一化特征归一化是为了消除数据特征之间的量纲影响,使得不同指标处于同一数值量级,具有可比性,以便进行分析。常用方法线性函数归一化:对原始数据做线性变换,使结果映射到[0,1]的范围内,实现对原始数据的等比缩放。零均值归一化:将原始数据映射到均值为0、标准差为1 的分布上。...原创 2021-10-31 01:27:55 · 273 阅读 · 0 评论 -
【学习笔记】自动驾驶
模块组成感知模块:环境感知是指车辆对行驶环境以及周边物体的识别和理解,需要软件有效地处理从摄像头以及其他传感器收集到的环境及自身信息。感知模块涉及到物体检测、场景分割等算法。决策模块:决策模块需根据感知模块的输出来帮助车辆进行决策判断,让无人车能够在时刻动态变化且具有多种不确定因素的环境下安全地行驶。较为先进的决策算法有模糊理论、强化学习等。控制模块:控制模块负责根据决策模块给出的指令控制车辆执行相应的操作。...原创 2021-10-23 02:12:26 · 126 阅读 · 0 评论 -
【学习笔记】计算机听觉
音频信号的特征提取在处理音频信号时,一般要先进行特征提取,消除信号中的背景音、噪声等,保留有辨识性的内容信息。梅尔频率倒谱系数MFCC(Mel-Frequency Cepstral Coefficient)是一种非常重要的音频特征。MFCC的主要特征提取流程为:预加重:对音频信号的高频部分进行加重,增加信号中高频部分的分辨率、一般来说,音频信号的低频段能量高、信噪比大,高频段能量低、信噪比小。所以音频信号的能量主要分布在低频段,功率谱密度会随着频率的增高而降低,导致高频信号传输困难,影响信号质量。预原创 2021-10-23 02:00:51 · 1043 阅读 · 0 评论 -
【学习笔记】深度学习视频处理
视频处理视频是由一系列图像按时间序列组成的,既包含了图像的空域信息,也包含了其独有的时域信息。视频处理的范围很广,涵盖了视频从诞生到展示的整个端到端的流程,包括视频采集、视频转码、视频存储、视频传输、视频分发、视频播放等。视频编解码视频编解码的主要任务是既要实现较大的压缩比,又要保证一定的视频质量。目前主流的编解码标准包括H.264(AVC)、H.265(HEVC)、VP9、AVI等。各个标准在具体算法的实现上有很大不同,但整体架构均采用了基于块的混合视频编码框架。帧内预测帧内预测编码是指利用视原创 2021-10-22 01:49:20 · 2774 阅读 · 1 评论 -
【学习笔记】推荐系统
推荐系统组成推荐系统的任务是根据用户和物品的特征,使用某种或某些推荐算法预测任意用户uuu对任意物品iii的偏好或评分,并按照预测的偏好顺序,将排在前列的物品展示给用户。召回算法:负责从整个物品集中抽取当此推荐查询的候选集。大部分召回策略都基于内容过滤、协同过滤或它们的混合方法。协同过滤是基于已知用户对部分物品的偏好或评分,预测缺失偏好或评分的方法。召回可以视为一个粗排序的过程,主要目的是排除大部分无关物品,在有限的资源条件下提供尽可能准确的一个小候选集,从而减轻排序阶段的计算负担和耗时。在召回阶段原创 2021-10-21 01:50:25 · 292 阅读 · 0 评论 -
【学习笔记】自然语言处理
词嵌入模型词嵌入模型基于的基本假设是出现在相似的上下文中的词含义相似,以此为依据将词从高维稀疏的独热向量映射为低维稠密的连续向量,从而实现对词的语义建模。基于词出现频次的词嵌入模型通过对“文档-词”矩阵进行矩阵分解得到每个词的语义表示。典型模型有GloVe。GloVe模型的基本思想是最小化 词iii和词jjj的向量向量表示viv_ivi和vj^\hat{v_j}vj^算得的函数F(viTvj^)F(v_i^T\hat{v_j})F(viTvj^) 与 词jjj出现在词iii的上下文概率Pi原创 2021-10-20 01:29:19 · 505 阅读 · 0 评论 -
【学习笔记】人体姿态识别
概念人体姿态识别(Pose Estimation)是检测图像或者视频中人体关键点的位置、构建人体骨架图的过程。利用人体姿态信息可以进一步进行动作识别、人机信息交互、异常行为检测等任务。然而,人的肢体比较灵活,姿态特征在视觉上变化比较大,并且容易受到视角和服饰变化的影响。2D人体姿态识别自底向上算法自底向上算法也称为 part-based 方法,它首先检测出图像或视频中人体的关键点,然后对不同关键点进行匹配,将属于一个人的关键点连接起来。这类方法的识别速度不会受图像或视频中人数的影响,并能有较小的模型原创 2021-10-18 01:24:29 · 8680 阅读 · 0 评论 -
【学习笔记】图像标注
概述图像标注(Image Captioning)将一张图片翻译为一段描述性文字,需要机器用模型去理解图片的内容,还要用自然语言去表达这些内容并生成人类可读的句子。评价指标由于现实中对每一种图的标注结果进行人工评判的成本很高,所以研究者提出了一些自动评价图像标注效果的方法。BLEU(Bilingual Evaluation Understudy)BLEU主要用来评估机器翻译和专业人工翻译之间的相似度。后来该指标被引入到图像标注任务中,用来评估机器生成的文本同人工注释之间的相似度。相似度的度量是基于N原创 2021-10-18 01:04:18 · 1354 阅读 · 0 评论 -
【学习笔记】自动化机器学习
概念自动化机器学习要解决的问题是,针对特定的一类或若干类机器学习任务,在没有人类专家干预且计算资源有限的条件下,自动化地构造机器学习算法流程。机器学习算法流程包括根据数据建立算法模型、算法效果评估、不断优化算法效果等。研究方向包括:自动化特征提取、自动化模型选择、自动化模型参数调优、自动化模型结构搜索、自动化模型评估、元学习、迁移学习等。自动化调优机器学习模型的选择和超参数的指定统称为机器学习模型的配置。对于一个给定的机器学习问题和一个数据集,我们可以配置一个具体的机器学习模型,然后在这个数据集上训原创 2021-10-17 16:14:47 · 7876 阅读 · 0 评论 -
【学习笔记】元学习
概念元学习可以帮助模型在少量样本下快速地学习,也称为少次学习。元学习适合小样本、多任务的学习场景,可解决在新任务缺乏训练样本的情况下快速学习和快速适应的问题。元学习需要多个不同但相关的任务支持,每个任务有自己的训练集和测试集。元学习方法的主要思路按划分参数空间的方法分类元参数定义在函数中。元参数和任务相关参数共同组成要学习函数的参数空间,即f(⋅;θt,Θ)f\left(\cdot ; \theta_{t}, \Theta\right)f(⋅;θt,Θ)。对函数构造进行建模,可分为:(1)递归原创 2021-10-17 00:41:58 · 768 阅读 · 0 评论 -
【学习笔记】强化学习
定义强化学习主要由智能体agent和环境environment两部分组成。agent代表有行为能力的物体。环境指agent执行动作所处的场景。外部环境提供的信息很少,且没有带标签的监督信息,agent需不断试错来尝试不同的动作,根据采取的策略在交互过程中获得的奖励或惩罚信号,自主发现和选择最大回报的动作。强化学习的目的是寻找一个最优策略,使智能体在运行过程中所获得的累积奖励达到最大。强化学习可用四元组<S,A,P,R><S,A,P,R><S,A,P,R>表示。时原创 2021-09-25 20:53:04 · 478 阅读 · 0 评论 -
【学习笔记】神经网络的计算量和参数量估计
评估计算量指标每秒浮点操作次数FLOPS(FLoating point OPerations per Second),来衡量GPU的运算能力。乘加数MACC(Multiply-ACCumulate operation),或者叫MADD,来衡量模型的计算量。模型最终的的速度,不仅仅是和计算量多少有关系,还和诸如内存带宽、优化程度、CPU流水线、Cache之类的因素也有很大关系。全连接层计算量和参数量估计对于输入为III,输出为JJJ的全连接层,其权重WWW存储在I×JI \times JI×J的原创 2021-02-19 00:18:37 · 1328 阅读 · 1 评论 -
【学习笔记】无监督行人重识别
BUC《A Bottom-up Clustering Approach to Unsupervised Person Re-identification》2019 AAAIBUC是一种自底向上聚类方法(bottom-up clustering)来联合优化CNN和无标签样本间的关系。最开始把每张行人图像作为单独的一类,来最大化每类的diversity,然后逐渐把相似的类合并为同一类,来提升每类的similarity。图像xxx的属于簇ccc的概率p(c∣x,V)=exp(VcTv/τ)∑j=1Cexp原创 2021-01-09 14:07:02 · 2433 阅读 · 0 评论 -
【学习笔记】迁移学习
迁移学习是利用数据、任务或模型之间的相似性,将在旧的领域(source domain)学习过或训练好的模型,应用于新的领域(target domain)这样的一个过程。迁移学习的关键点是,新的任务(task)与旧的任务在数据、任务和模型之间的相似性。在不同任务域之间进行迁移学习,可以避免高代价的数据标注工作。域(domain)指需要学习的数据及其分布,更确切地说主要包括数据的特征空间XXX、类别空间YYY以及边缘分布即P(X)P(X)P(X)分类根据学习的内容主要可分为四类:实例迁移、特征表示迁移、原创 2021-01-02 23:29:15 · 1222 阅读 · 0 评论 -
【学习笔记】经典目标检测算法
定义目标检测任务的目标是找到图像中的所有感兴趣区域,并确定这些区域的位置和类别。目标检测领域的深度学习方法主要分为两大类:两阶段式(Two-stage)目标检测算法和单阶段式(One-stage)目标检测算法。前者是先由算法生成一系列候选边界框作为样本,然后再通过卷积神经网络分类这些样本,也被称为基于区域的方法,例如R-CNN、Fast R-CNN、Faster R-CNN、R-FCN等;后者则是直接将目标边界定位问题转换成回归问题,图像会被缩放到同一尺寸,并以网格形式均等划分,模型仅需处理图像一次就能原创 2020-12-26 20:06:20 · 6194 阅读 · 2 评论 -
【学习笔记】经典语义分割模型
Image Segmentation定义FCNU-NetSegNetRefineNetPSPNetDeepLabFastFCN性能测试损失函数Focal LossDice Loss定义图像分割将图像中的每个像素都与一个对象类型相关联。图像分割主要有两种类型:语义分割和实例分割。在语义分割中,所有相同类型的对象都使用一个类标签进行标记,而在实例分割中,相似的对象使用各自的标签。FCN《Fully Convolutional Networks for Semantic Segmentation》 20原创 2020-12-25 14:37:45 · 5469 阅读 · 2 评论 -
【学习笔记】Normalization
Local Response Normalization通过对局部神经元的活动创建竞争机制,使得其中响应较大的值变得相对更大,并抑制其他反馈较小的神经元,增强模型的泛化能力。bc=ac(k+αn∑c′=max(0,c−n/2)min(N−1,c+n/2)ac′2)−βb_{c} = a_{c}\left(k + \frac{\alpha}{n} \sum_{c'=\max(0, c-n/2)}^{\min(N-1,c+n/2)}a_{c'}^2\right)^{-\beta}bc=原创 2020-12-21 00:13:07 · 263 阅读 · 1 评论 -
【学习笔记】优化算法
优化算法SGD△w=−ηJ′(w)\triangle w=-\eta J'(w)△w=−ηJ′(w)其中△w\triangle w△w是参数的增量,η\etaη是学习率,J′(w)J'(w)J′(w)是损失关于参数的梯度。而小批量梯度下降算法一次训练使用多个样本,取所有参与训练的样本平均梯度来更新参数。△w=−ηgi,gi=1m∑k=1mJ′(w)\triangle w=-\eta g_i,g_i = \frac 1 m \sum^m_{k=1}J'(w)△w=−ηgi,gi=m1∑k=1原创 2020-12-20 18:13:34 · 294 阅读 · 0 评论 -
【学习笔记】损失函数
定义损失函数用于衡量模型对任何给定数据的性能。损失函数将预测值与期望值之间的误差进行量化,并以单个实数的形式表示出来。用梯度下降法求函数的局部极小值,对给定数据进行参数修正,以降低损失函数。先计算梯度,然后在与梯度相反的方向上按一定步长(即学习率)进行移动。由于损失函数可能存在许多局部最小值,在不同的初始点和学习率下,会优化收敛到不同的点。如果学习率太高,我们可能会越过最小值,而无法收敛最小值;如果学习率太低,则训练时间可能会太长。选择合适的学习率可以在得到最优结果,且节省训练时间。...原创 2020-12-13 20:18:58 · 751 阅读 · 0 评论 -
【学习笔记】经典卷积神经网络
LeNet《Gradient-Based Learning Applied to Document Recognition》Proceedings of the IEEE 1998LeNet-5是最简单的架构之一,是第一个将反向传播应用于实际应用的CNN架构。它由2个5×5卷积层、2个2×2池化层和3个全连接层组成。当初是用于手写数字识别。创新点:叠加卷积层和池化层,并以一个或多个全连接层结束网络。AlexNet《ImageNet Classification with Deep Conv.原创 2020-12-08 21:44:05 · 1313 阅读 · 0 评论 -
【代码记录】GradCAM
import torchimport torch.nn as nnfrom torch import Tensorimport torch.nn.functional as Fclass GradCAM: def __init__(self, model: nn.Module, conv_layer: str) -> None: self.submodule_dict = dict(model.named_modules()) if conv_lay原创 2020-12-07 15:33:54 · 981 阅读 · 0 评论 -
【学习笔记】图像超分辨
参考文章:2020 图像超分最新综述及上采样技术一览定义图像超分辨是将低分辨图像恢复为高分辨图像的方法。F(⋅)F(\cdot)F(⋅)为超分辨模型,θ\thetaθ为模型参数。IHR=F(ILR,θ)I_{HR} = F(I_{LR}, \theta)IHR=F(ILR,θ)在实际情况下,HR图像会由于压缩伪影、各向异性退化、传感器噪声和散斑噪声等因素的影响退化为LR图像,但是这些因素不可控,通常情况下,我们采用最原始的降采样(downsampling)操作来对退化过程进行建模。最常见的降采样原创 2020-12-06 15:17:25 · 2115 阅读 · 0 评论 -
【学习笔记】pytorch中LSTM的输入输出shape
LSTMclass RNNBase(Module): ... def __init__(self, mode, input_size, hidden_size, num_layers=1, bias=True, batch_first=False, dropout=0., bidirectional=False):input_size:输入数据的大小,也就是embedding dimensionhidden_size:原创 2020-09-06 19:45:41 · 2989 阅读 · 0 评论 -
【学习笔记】Language+Vision数据集
VQA数据集DAQUARDAQUAR是最早提出的VQA数据集,也是最小的VQA数据集。DAQUAR中的图像来自于NYU-Depth v2 数据集,都是室内场景的RGBD图像,795张用于训练,654张用于测试。DAQUAR中的QA Pairs主要有两种类型:自动生成的和人工标注的。COCO-QACOCO-QA数据集中的图像来自于MS-COCO数据集,包括123287张图像,其中有72738...原创 2019-07-24 12:33:10 · 1822 阅读 · 0 评论 -
【学习笔记】TensorboardX学习笔记
TensorboardX使用方法资源来源:Pytorch模型训练实用教程调用方法首先要import tensorboardXfrom tensorboardX import SummaryWriter直接往接口写入pytorch形式的tensorwriter.add_histogram(‘zz/x’, x, epoch)保存记录信息到.json文件里writer.export_s...原创 2019-06-06 17:41:02 · 3683 阅读 · 0 评论 -
【学习笔记】集成学习
概念集成学习(Ensemble Learning)就是通过某种策略将多个模型集成起来,通过群体决策来提高决策准确率。当弱模型被正确组合时,我们可以得到更精确和/或更鲁棒的模型。集成学习首要的问题是如何集成多个模型。比较常用的集成策略有直接平均、加权平均等。对于MMM个不同的模型f1(x),⋯ ,fM(x)f_{1}({x}), \cdots, f_{M}({x})f...原创 2019-07-07 22:01:33 · 166 阅读 · 0 评论 -
【学习笔记】深度卷积神经网络中的降采样
降采样降采样指的是成比例缩小特征图宽和高的过程,比如从(W,H)变为(W/2,H/2)。深度卷积神经网络中降采样的方法主要有三种:stride大于1的poolingstride大于1的convstride大于1的reorg(在YOLOv2的论文里叫passthrough layer)其中1和2在深度卷积神经网络中使用非常普遍,3比较小众,由Joseph Redmon在YOLOv2中...原创 2019-07-07 22:00:42 · 1349 阅读 · 0 评论