深度学习
文章平均质量分 92
UpCoderXH
这个作者很懒,什么都没留下…
展开
-
【Paper Reading】CLIP:Learning Transferable Visual Models From Natural Language Supervision
前提是我们有一组需要区分的类别,也知道当前的图片确实可以分到这些类别里面,那么我们可以通过给类别增加一些prompt,抽取这些prompt的文本embedding,再抽取图片的visual embedding,分别将visual embedding和不同的prompt的embedding计算相似度,哪个prompt的相似度最高,则属于那个类别。目前许多的视觉任务都是基于固定的类别类目进行训练的到的模型。而在NLP领域中,自回归/masked的这种无监督的训练方式已经逐步成为主流,并且也取得了很不错的效果。原创 2023-08-06 21:45:34 · 118 阅读 · 0 评论 -
【Paper Reading】CenterNet:Keypoint Triplets for Object Detection
因此这里作者提出了scale-aware的中心区域计算方法,详情如下所示,其中针对大物体,n选择5,针对小物体,n选择3。作者也从指标的角度量化了上面提到的CornerNet比较容易出现False Positive的情况,如下图所示。具体来说就是针对每个位置,我们计算其水平和垂直方向的max response,然后想加得到该位置的表征,我们认为这样的表征是包括了全局信息。具体来说,为了使得中心点的预测更加准确,作者提出了Center Pooling的层用来在水平和垂直两个维度进行特征的聚合。原创 2023-08-06 18:03:05 · 996 阅读 · 0 评论 -
[论文总结]YOLO v1、YOLO v2、YOLO v3、YOLO v4、YOLOv5
在v2中我们通过每个grid预测多个anchor来解决目标遗漏的问题,但是针对小目标的检测,v2仍然不是十分友好,因此,从yolov3开始引入了multi-head的概念,引入了不同分辨率的,13x13的预测大物体,26x26的负责预测中物体,52x52的负责预测小物体。=5*2+20,这里的20代表我们最后预测物体类别已经有20个类别,5代表的是(c,x,y,w,h),c表示的是置信度分数,xywh分别表示的是中心点左边和宽高。YOLO v1的整体结构如上图所示,他给整个系列的YOLO 定下了基调。原创 2023-07-05 17:03:59 · 361 阅读 · 0 评论 -
[Paper Read] General Focal Loss
General Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection目录General Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object DetectionCode && PaperBackground && Motivation不一致性不灵活性原创 2021-03-19 00:19:39 · 317 阅读 · 0 评论 -
[Paper Reading] AUM Identify Mislabeled Data using the Area Under the Margin Ranking
Identify Mislabeled Data using the Area Under the Margin RankingPaper ReadingIdentify Mislabeled Data using the Area Under the Margin RankingBackgroundContributionMethodologyDiscussionBackground目前关于noise-label 学习的工作一般包括两个大类loss,一般就是通过改进loss,使得不同样本具有不原创 2021-03-08 22:38:13 · 812 阅读 · 0 评论 -
详解GIoU、DIoU、CIoU Loss
GIoU、DIoU、CIoU详解GIoU、DIoU、CIoUGIoU优势核心实现公式CodeDIoU(Distance-IoU)MotivationContributionsDetailResultDiscussionGIoU、DIoU、CIoU随着IoU Loss在目标检测领域的应用,最近有几篇典型的工作提出去改进IoU Loss,本文将依次介绍GIoU、DIoU和CIoU LossGIoU优势首先可以实现较全场景以类IoU Loss为目标直接优化,使得优化目标和最终的评估目标一致。由于IoU原创 2021-03-04 23:43:12 · 8793 阅读 · 1 评论 -
[论文阅读] Going Deeper with Convolutions
一般来说更深的网络具有更好效果,更深的网络也面临两个问题。更深的网络拥有更多的参数,更容易过拟合。更深的网络对计算的要求也更高。针对上述问题的一个解决方法就是使用稀疏连接(convolutional layer),而不是dense connection。此外,同一类的物体在不同图片中的大小差距也比较大,如下图所示,从左到右图像需要的kernel size依次递减。为了解决这个问...原创 2019-01-09 12:42:41 · 400 阅读 · 0 评论 -
LRN,BN,LN,IN,GN
这篇文章中我们介绍五种用在深度学习中的normalization方法。Local Response Normalization,Batch Normalization,Layer Normalization,Instance Normalization,Group NormalizationLocal Response Normalization来源:AlexNet公式化:bx,yi=a...原创 2019-02-28 17:44:13 · 2270 阅读 · 1 评论 -
关于softmax,cross entropy,三层全连接的导数计算以及反向传播
在本文中,我们主要介绍softmax,softmax+crossentropy,三层全连接的导数计算和反向传播softmax定义:S(ai)=eai∑j=1NeajS(a_i) = \frac{e^{a_i}}{\sum_{j=1}^N{e^{a_j}}}S(ai)=∑j=1Neajeai倒数计算过程(令SiS_iSi表示S(ai)S(a_i)S(ai)):if&nbs...原创 2019-03-01 20:16:14 · 1218 阅读 · 0 评论 -
RNN、LSTM、GRU
近年来循环神经网络在自然语言处理,语音技术,甚至图像方面都有不错的应用。本文主要介绍基础的RNN,RNN所面对的问题,以及RNN的改进版本:LSTM和GRURNN(Recurrent Neural Network)我们先放一张RNN的结构图,一般的RNN也遵循这个过程。输入是x1~xt,绿色的方框表示处理单元,hih_ihi表示的是隐藏单元,yiy_iyi表示的是输出。对于不同的输...原创 2019-02-26 23:33:50 · 292 阅读 · 0 评论 -
模型训练时loss出现Nan的原因分析
下面的分析都是基于tensorflow数据不正确比如说我们处理的实际是一个N分类问题的时候,在tensorflow中,我们计算cross entropy的时候将其当作一个M分类问题。如果N>M, 则在计算loss的时候不会报错,计算得到的loss直接就是NAN学习率过大有时候学习率过大也会导致NAN,为了判别这种错误,我们只需要将学习率设置为0,看是否会继续出现NAN,如果...原创 2019-04-18 21:35:00 · 8829 阅读 · 0 评论 -
【论文阅读】EAST: An Efficient and Accurate Scene Text Detector
任务:文本检测(可以检测倾斜文本)contributions 提出了End-to-End 的全卷积网络来解决文本检测问题可以根据特定的应用生成quardrangles或者是rotated boxes两种格式的几何标注改进了state-of-the-art方法算法的核心思想:主要思想来自于U-Net, 采用U型结构来得到1、pixel-level的分割预测结果。2、pixel-leve...原创 2018-04-08 20:48:27 · 2286 阅读 · 4 评论 -
[deep learning] Optimizer
本文主要是用于介绍深度学习中常用的几种优化器SGD:这是我们最常用的优化器之一。SGD其实有三个版本:batch-SGD,他是一个epoch更新一次数据,这样子的缺点也是很明显的,对计算的要求大,不能实时增加数据。有冗余的信息。SGD,每个sample更新一次梯度。这样子做的主要问题是网络可能难以收敛,波动较大。Mini-batch SGD,这是我们现在最常用的,就是对一个batch内...原创 2019-01-10 14:27:22 · 300 阅读 · 0 评论 -
[论文阅读] Batch Normalization: Accelerating Deep Network Training By Reducing Internal Covariate Shift
Background存在什么问题?训练深度神经网络是比较复杂的,因为每层输入的分布在训练过程中都在变化。如果每层输入的分布在不停的变化,那我们就需要不停的调整我们的参数去补偿这部分变化,这就使得训练过程更加缓慢。此外,由于分布的变化使得使用saturating nonlinearity function变得更加难以训练。首先我们区分什么是saturating,什么是non-satur...原创 2018-12-25 10:43:00 · 344 阅读 · 0 评论 -
[论文阅读]SSD Single Shot Multibox Detector
SSD Single Shot Multibox DetectorCode: https://github.com/balancap/SSD-TensorflowSSD 是ECCV 2016的文章,文章主要提出了一种新的framework来完成object detection任务。主要的特点是速度快,mAP也比较有竞争力。文章的主要贡献提出了SSD,它比当时最快的YOLO更快,而且相比...原创 2018-10-10 21:40:02 · 174 阅读 · 0 评论 -
论文阅读:RCNN[Rich feature hierarchies for accurate object detection and semantic segmentation]
文章的突出点 可以利用大容量(high capacity)的卷积神经网络去定位分割物体当我们训练数据很少的时候,我们可以使用迁移学习的方法来fine-tuning现成的网络文章的重点当然是我们怎么去定位一个物体,在这里,我们以人脸识别为例,在一张图片中检测出人脸。 数据集:FDDB人脸检测库FDDB流程: 从一张图像中选取许多个bounding box,文中说明了使用selective原创 2017-08-17 20:52:33 · 405 阅读 · 2 评论 -
[深度学习]Softmax 交叉熵
交叉熵代表的是不同概率分布的相似情况,他的计算方法如下所示:其中y代表的是每种类比出现的概率 cross\_entropy = -\sum y * log(y)对于深度学习中的分类问题来说,当分类越准确的时候,上述值就越小。但是对于神经网络来说,怎么把一个神经网络的输出转化成相应的概率呢?这就是我们接下来要说的softmax函数的作用softmax函数的定义如下所示:我们可以看到sof原创 2017-09-16 21:47:30 · 578 阅读 · 0 评论 -
GPU 命令行释放内存
我们在使用tensorflow+pycharm 写程序的时候, 有时候会在控制台终止掉正在运行的程序,但是有时候程序已经结束了,nvidia-smi也看到没有程序了,但是GPU的内存并没有释放,那么怎么解决该问题呢?首先执行下面的命令sudo fuser -v /dev/nvidia* #查找占用GPU资源的PID因为我们只有一块显卡,所以显示如下图所示: 可以看到我们的nvidia0上还有一原创 2017-12-21 10:25:41 · 43666 阅读 · 6 评论 -
Caffe 安装
目标:在Ubuntu 16.04上装上CPU only 版本的caffe参考博客详细步骤:安装依赖sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compilersudo apt-get install --no-i原创 2018-01-22 21:03:40 · 146 阅读 · 0 评论 -
CenterLoss---Tensorflow
本文主要讲解自己对CenterLoss的一些理解,想要看原文的请戳这里 A discriminative feature learning approach for deep face recognitionbackground CenterLoss提出的主要目的是对FaceNet的改进,FaceNet使用的是triple loss,该计算方法需要我们提前计算出三元组,计算量大不说,而且收敛原创 2018-01-16 16:08:57 · 1843 阅读 · 11 评论 -
[论文学习]《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 》
faster R-CNN的主要贡献 提出了 region proposal network(RPN),通过该网络我们可以将提取region proposal的过程也纳入到深度学习的过程之中。这样做既增加了Accuracy,由降低了耗时。之所以说增加Accuracy是因为,RPN是可以通过反向传播训练的,所以他提取的proposal也会更准确一些。The Flowchart of the Fa...原创 2018-03-10 14:29:30 · 317 阅读 · 0 评论 -
为什么L1正则项产生稀疏的权重,L2正则项产生相对平滑的权重
L1 和L2正则项的定义如下: L1=∑i|wi|L2=∑i(wi)2L1=∑i|wi|L2=∑i(wi)2L1 = \sum_{i} |w_i|\\L2 = \sum_{i} (w_i)^2首先我们先计算一下他们对应的导数,导入如下所示: ∂L1∂wi=1or−1→wt+1i=wti+η(−1or1)∂L2∂wi=wi→wt+1i=wti+ηwi∂L1∂wi=1or−1→wit+1...转载 2018-03-11 16:42:31 · 3097 阅读 · 2 评论 -
[论文阅读] CTPN---Detecting Text in Natural Image with Connectionist Text Proposal Network
这篇论文思路和Faster RCNN是差不多的。总体来说,就是先通过RPN(Region Proposal Network)来提取proposal,然后再对提取得到的proposal进行classification。文章对Faster RCNN有以下几点改进: Faster RCNN中使用的3种size和3种长宽比组合的9种anchor,但是CTPN中,他固定了anchor为16px(vgg...原创 2018-03-25 20:49:39 · 873 阅读 · 10 评论 -
Tensorflow中的反卷积
实现函数:tf.nn.conv2d_transpose(input_tensor, filter_weights_tensor, output_shape, strides, padding) input_tensor: 代表的是输入的tensor,默认的size是[batch_size, w, h, channel]filter_weight_tensor: 代表卷积运算时filter参...原创 2018-04-09 16:51:32 · 1506 阅读 · 0 评论 -
天池大赛--ICPR Text Detection总结
ICPR2018举办的文本检测比赛,详细链接请戳.任务描述:从一副图像中检测出文本所在的位置.先后尝试了三种做法: 基于Faster RCNN的CTPN方法,代码链接. 直接加载训练好的模型在数据集上测试F1 score只是0.10数量级. 关于CTPN的详情请看我的这篇博文—[论文阅读]—CTPN基于U-Net的EAST, 代码链接. 直接加载训练好的模型在数据集上测试F1 score...原创 2018-05-26 22:07:07 · 5313 阅读 · 1 评论 -
医学图像分割中常用的度量指标
接下来给大家介绍一下医学图像中常用的几个度量指标,主要参考MICCAI2007 - 首先定义以下标识符:VgtVgtV_{gt}代表的是ground truth的分割结果,VpredVpredV_{pred}代表的是预测的分割结果. - DICE: 这个相信大家最熟悉,因为使用的频率应该是最多的.它的定义如下所示. 直观上来说代表的是两个体相交的面积占总面积的比值.完美分割该值为1. DIC...原创 2018-06-04 21:16:42 · 9606 阅读 · 8 评论 -
Tensorflow、深度学习填坑记
问题1 背景:VGG16去做一个人脸j检测的算法,使用RCNN,在fine-tuning的时候其实就是一个二分类问题,区分出来background和face问题描述:在fine-tuning的时候总是将所有样本归到负样本,即就是background。解决方案:增大学习率,一开始我还以为是我selective search提取bounding box的时候有问题,但是完全使用VGG16去做SVR原创 2017-08-17 10:18:51 · 417 阅读 · 0 评论