- 博客(62)
- 收藏
- 关注
原创 Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching 论文精读
本文提出了**Matcher**,一个无需训练的OneShot Segment Anything框架,其结合了一个通用特征提取模型(例如DINOv2)和一个无类别分割模型(例如SAM)。
2023-06-04 19:37:06
964
7
原创 SharpContour论文精读
本文基于Contour提出了一种新的BoundaryRefine方案,名为SharpContour,其同时具有准确、高效以及通用的优点。SharpContour将一个Coarse Contour作为输入,并**独立地**对各个顶点进行变形,以达到Refine的效果。
2023-06-02 17:43:53
776
原创 OpenMMLab AI实战营 第6课 语义分割与MMSegmentation
OpenMMLab AI实战营 第6课 语义分割与MMSegmentation
2023-02-10 22:18:36
434
原创 OpenMMLab AI实战营 第5课 MMDetection 代码教学
OpenMMLab AI实战营 第5课 MMDetection 代码教学
2023-02-08 23:45:29
155
原创 OpenMMLab AI实战营 第4课 目标检测与MMDetection
OpenMMLab AI实战营 第4课 目标检测与MMDetection
2023-02-07 00:27:57
207
原创 OVIS数据集代码解析
OVIS数据集格式整体和COCO类似,但是是以video的形式存储的,对应的解析代码见:https://github.com/qjy981010/cocoapi/blob/main/PythonAPI/pycocotools/ovis.py。由于OVIS仅train提供了标注,因此,这里均以train进行说明。
2022-11-23 21:31:04
923
原创 FCOS: Fully Convolutional One-Stage Object Detection
FCOS是一个全卷积的单阶段目标检测器,去除了对于Anchor的依赖,将图片上的每个位置都作为sample,大大提高了对于图片的利用率。具体而言,对于某个位置来说,其如果落在某个GT BBox内,则认为其为正样本,并对该GT BBox进行回归(回归目标是该点距离其分配的GT BBox四条边的距离),反之,如果某个点没有落在任何GT BBox内,则认为其为负样本。这样一来,位于GT BBox内的所有样本都会被作为正样本进行训练。同时,FCOS还采用或者提出了一些方案用于解决全卷积网络的问题。...
2022-07-22 12:16:13
771
原创 2012_ImageNet Classification with Deep Convolutional Neural Networks
文章目录1. Title2. Summary3. Problem Statement4. Method(s)4.1 Introduction4.1.1 ImageNet 数据集4.1.2 卷积神经网络(Convolutional Neural Network)4.2 模型结构4.2.1 ReLU 激活函数4.2.2 多 GPU 并行处理4.2.3 局部响应归一化(Local Response Normalization)4.2.4 重叠池化 Overlapping Pooling4.2.5 整体结构4.3
2021-12-01 19:25:10
2731
原创 数字图像处理
文章目录一、OpenCV相关1. Opencv中的坐标系与Numpy矩阵坐标系2. 阈值化(1)简单阈值(2)自适应阈值(3)Otsu的二值化二、数字图像处理基础1. 仿射变换2. 滤波(1)均值滤波(2)高斯模糊(3)中值模糊(4)双边滤波3. 形态学操作(1)腐蚀操作(2)膨胀操作(3)开运算(4)闭运算(5) 形态学梯度(6)白帽(7)黑帽4. 图像梯度(1)Sobel、Scharr算子(2)Laplacian 算子5. Canny边缘检测(1)高斯滤波(2)梯度计算(3)非极大值抑制(Non-Max
2021-07-09 12:01:43
677
原创 2019-BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
文章目录1. Title2. Summary3. Problem Statement4. Method(s)4.1 BERT4.1.1 Model Architecture4.1.2 Input/Output Representations4.2 Pre-Training BERT4.2.1 Masked Language Model (MLM)4.2.2 Next Sentence Prediction (NSP)4.3 Fine-tuning BERT5. Evaluation6. Conclusion
2021-06-09 17:41:40
205
原创 2017-Attention Is All You Need
在经典的序列翻译模型中,大都是基于RNN和CNN来完成。RNN并行化能力差,CNN捕获远距离依赖的代价较高。基于以上考虑,本文提出了一个仅仅基于Attention机制的Transformer结构,其并行化能力高,同时可以很高效地捕获远距离依赖,克服了RNN和CNN的缺点,成为了NLP领域的标准模型。
2021-06-09 13:03:00
261
原创 2021-Twins: Revisiting the Design of Spatial Attention
1. TitleTwins: Revisiting the Design of Spatial Attention in Vision Transformershttps://github.com/Meituan-AutoML/Twins2. Summary写完笔记之后最后填,概述文章的内容,以后查阅笔记的时候先看这一段。3. Problem Statement相较于CNN来说,Transformer由于其能高效地捕获远距离依赖的特性,近期在计算机视觉领域也引领了一波潮流。Transform
2021-05-31 19:01:39
508
原创 2018-Self-Attention with Relative Position Representations
文章目录1. Title2. Summary3. Problem Statement4. Method(s)4.1 Relation-aware Self-Attention4.2 Relative Position Representation4.3 Efficient Implementation5. Evaluation6. Conclusion1. TitleSelf-Attention with Relative Position Representationshttps://github.
2021-05-21 12:03:40
999
原创 2021-Conditional Positional Encodings for Vision Transformers
1. TitleConditional Positional Encodings for Vision Transformershttps://github.com/Meituan-AutoML/Twins2. Summary本文主要是对Transformer中的Positional Encoding问题进行了探索,之前的PE都存在一定的问题:例如无法适应不同长度的序列、不具有平移不变性等。基于这些问题,本文提出了Conditional Positional Encoding。主要方法是将序列
2021-05-19 16:06:36
2213
3
原创 2021-Flow-based Video Segmentation for Human Head and Shoulders
1. Title论文链接:Flow-based Video Segmentation for Human Head and Shoulders代码以及数据集链接:https://github.com/kuangzijian/Flow-Based-Video-Segmentation2. Summary本文提出的FUNet整体较为简单,主要就是基于PWCNet完成了光流预测,并通过设定阈值的方式,将光流转化为了Motion Feature Mask,该Mask作为辅助信息与原图一起送入一个简单的UNe
2021-05-12 18:29:09
306
原创 2021-Learning Position and Target Consistency for Memory-based Video Object Segmentation
文章目录1. Title2. Summary3. Problem Statement4. Method(s)5. Evaluation6. Conclusion7. Notes1. TitleLearning Position and Target Consistency for Memory-based Video ObjectSegmentation2. Summary写完笔记之后最后填,概述文章的内容,以后查阅笔记的时候先看这一段。3. Problem Statement4. Metho
2021-04-29 16:30:53
837
2
原创 2021-Swin Transformer Attention机制的详细推导
1. TitleSwin Transformer: Hierarchical Vision Transformer using Shifted Windows2. Summary写完笔记之后最后填,概述文章的内容,以后查阅笔记的时候先看这一段。3. Problem Statement卷积操作由于其权值共享、Locality、滑窗等特性,天然比较适合对图像的各种特征进行建模,因此,也成为了计算机视觉领域的主流架构。但是随着近些年的研究,CNN结构的性能逐渐达到了一个瓶颈,CNN结构的locality
2021-04-26 20:15:34
10065
28
原创 2021-Lite-HRNet: A Lightweight High-Resolution Network
1. TitleLite-HRNet: A Lightweight High-Resolution Network2. Summary写完笔记之后最后填,概述文章的内容,以后查阅笔记的时候先看这一段。3. Problem StatementHuman pose estimation一般比较依赖于高分辨率的特征表示以获得较好的性能,但是目前的网络计算量较大,不能称之为一个高效的网络结构,因此,本文想解决的问题就是如何在计算资源受到约束的情况下部署一个高效的高分辨率模型。通过简单地将ShuffleN
2021-04-24 16:04:31
4565
14
原创 2021-Group Collaborative Learning for Co-Salient Object Detection
目录1. Title2. Summary3. Problem Statement(1)Co-Salient Object Detection问题定义(2)之前CoSOD方法存在问题4. Method(s)(1)Architecture Overview(2)Group Affinity Module(GAM)(3)Group Collaborating Module(GCM)(4)Auxiliary Classification Module(ACM)(5)End
2021-04-21 19:02:47
739
1
原创 2021-Modular Interactive Video Object Segmentation
1. TitleModular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion2. Summary本文通过将人工交互和mask传播两个子任务解耦,一方面扩展了用户交互形式的多样性,另一方面也降低了模型训练的难度,提升了性能和速度。本文的一个重要观点是:应该直到用户获得了一个满意的mask后,再将该mask送入费时的传播模块中,这个交互过程可以
2021-04-21 18:42:17
729
2
原创 2021-Semantic Image Matting
1. TitleSemantic Image Matting2. Summary本文相较于之前的Matting方法来说,创造性地引入了20个Matting Classes,或者某种意义上说是20种Matting Pattern,这样一来,对于每个image来说,可以额外引入一些类别信息,辅助Matting的进行。首先,由于一个image中可能存在多个Matting Classes,因此,需要先将未知区域划分为多个Patch,然后基于Patch训练一个分类器,分类结果再产生一个Class Ac
2021-04-21 16:16:17
1750
7
原创 2021-Deep Video Matting via Spatio-Temporal Alignment and Aggregation
Deep Video Matting via Spatio-Temporal Alignment and Aggregation目录Deep Video Matting via Spatio-Temporal Alignment and Aggregation1. Title2. Summary3. Problem Statement(1)Matting问题定义(2)Video Matting难点4. Method(s)(1)DatasetsComposited Da
2021-04-21 14:05:44
1669
2
原创 python中json模块用法记录
JSON(JavaScript Object Notation,JavaScript对象表示法,读作/ˈdʒeɪsən/)是一种由道格拉斯·克罗克福特构想和设计、轻量级的资料交换语言,该语言以易于让人阅读的文字为基础,用来传输由属性值或者序列性的值组成的数据对象。尽管JSON是JavaScript的一个子集,但JSON是独立于语言的文本格式,并且采用了类似于C语言家族的一些习惯。JSON 数据格式与语言无关。即便它源自JavaScript,但目前很多编程语言都支持 JSON 格式数据的生成和解析。JSON
2021-03-11 11:18:31
112
原创 argparse常见用法记录
很多的Python代码中都需要用命令行传参,之前一直都是直接copy别人写好的代码,这次想好好学习记录一下,以备后续查看。# test.pyimport argparsedef parse_args(): parser = argparse.ArgumentParser(description='Training With Pytorch.') parser.add_argument('--world-size', default=-1, type=int, help='numbe
2021-03-08 18:24:32
244
2
原创 YouCompleteMe安装参考博客
YCM安装整体流程https://segmentfault.com/a/1190000025167983YCM依赖问题https://github.com/ycm-core/ycmd/issues/1421#issuecomment-612971010https://stackoverflow.com/questions/65284572/your-c-compiler-does-not-fully-support-c17vim版本问题https://www.codenong.com/cs108
2021-02-24 19:23:38
98
原创 Dynamic ReLU论文简析
文章目录一、前言二、拟解决的关键问题三、Dynamic ReLU1. 激活函数2. Dynamic ReLU3. Dynamic ReLU的实现四、总结参考文献一、前言论文地址:https://arxiv.org/abs/2003.10027这篇博客主要是对Dynamic ReLU这篇论文进行简单记录与解析。二、拟解决的关键问题在轻量级网络例如MobileNet、ShuffleNet、ShiftNet中,由于网络规模的限制,导致模型的表征能力不足。因此,为了进一步提高轻量级网络的表征能力,需要在不
2020-10-12 20:56:23
926
原创 LeetCode-Tree篇总结
文章目录一、前言二、基础1. 树节点的定义。2. 深度优先遍历的递归写法3. 深度优先遍历的迭代写法4. 广度优先遍历的迭代写法三、深度优先遍历1. 树的深度问题2. 树的路径或叶子节点问题3. 二叉搜索树或中序遍历问题四、广度优先遍历问题一、前言作为正式好好刷题的开始,考虑到树相关的题目一般而言较为模板化,递归的代码一般也比较简洁,而且个人也比较擅长这个方面,因此,决定先从这个部分开始。这篇博客主要是记录一些思路,并不会讲解太多题目。二、基础个人认为,树的大部分题目其实都可以归结为一个遍历问题,树
2020-10-10 11:44:54
377
原创 Pytorch中的NLLLoss代码解释
在分类以及语义分割任务中,CrossEntropy是十分常用的一个损失函数,pytorch也对其进行了实现用于直接使用。但本人在阅读其源码时,发现nn,CrossEropyLoss并不是直接按照交叉熵公式:Loss(p,y)=∑i=1nyilog(pi)Loss(p, y)=\sum_{i=1}^{n}y_ilog(p_i)Loss(p,y)=∑i=1nyilog(pi)计算而得,实际上其是融合了多个计算而成:softmax计算+log计算+nll_loss计算。其具体原理,推荐一篇讲解得十分详细的
2020-09-07 10:25:07
2039
2
原创 Faster R-CNN论文解析
文章目录一、介绍二、拟解决的关键问题本篇博客将要解析的论文是Faster R-CNN,论文地址为:https://arxiv.org/abs/1506.01497一、介绍本文是Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun等人于2016年发表的一篇论文,提出了Faster R-CNN,进一步改进了Fast R-CNN模型,创造性地提出了Region Proposal Nerwork,将卷积神经网络引入目标检测领域的Region Proposa
2020-08-18 19:57:29
526
1
原创 简述python交换机制
文章目录问题描述问题分析解决方法参考文献:问题描述今天在刷《剑指offer》的时候,第一题中有用到一个python的交换机制,大致代码如下:nums[i], nums[nums[i]],= nums[nums[i]], nums[i]从代码中不难看出,我的想法是将下标为i的元素的值与该元素值作为下标的元素的值进行交换,但上述代码无法事先上述功能。首先上例子:nums = list(range(5))print(nums)nums[0], nums[1] = nums[1], nums[0]
2020-08-01 11:27:00
272
1
原创 Fast R-CNN论文解析
文章目录[1] https://zhuanlan.zhihu.com/p/59692298[2] https://blog.csdn.net/xunan003/article/details/86597954[3] http://www.robots.ox.ac.uk/~tvg/publications/talks/fast-rcnn-slides.pdf
2020-07-29 09:27:26
710
原创 SPPNet论文解析
文章目录一、介绍二、拟解决的关键问题三、Spatial Pyramid Pooling1. 问题背景2. Spatial Pyramid Pooling Layer四、SPPNet目标检测算法流程五、总结六、参考文献本篇博客将要解析的论文是Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition,论文地址为:https://arxiv.org/abs/1406.4729一、介绍本文是Kaiming He,
2020-07-25 15:29:10
572
原创 R-CNN论文解析
文章目录一、介绍二、拟解决的问题以及解决方法三、R-CNN模型1. 组成模块2. 训练过程四、R-CNN与OverFeat的关系五、总结六、参考文献本篇博客将要解析的论文是Rich feature hierarchies for accurate object detection and semantic segmentation,论文地址为:https://arxiv.org/abs/1311.2524一、介绍本文是Ross Girshick、Jeff Donahue、Trevor Darrell、
2020-07-22 12:38:51
337
原创 OverFeat论文解析
文章目录一、介绍二、拟解决的问题1. 特征提取2. 视觉任务三、解决方法四、分类任务1. 模型设计2. 推理步骤3. OffSet Max-Pooling4. 卷积网络与滑窗法的关系五、定位任务六、检测任务七、总结八、参考文献本篇博客将要解析的论文是OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks,论文地址为:https://arxiv.org/abs/1312.6229一、
2020-07-18 16:16:29
1080
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人