- 博客(11)
- 收藏
- 关注
原创 CVPR2021论文阅读记录
General Instance Distillation for Object Detection思路:通过confidence选的RPN区域,而不仅局限于使用教师网络输出,构建三种网络修正的目标,最终达到学生网络性能优于教师网络(loss内存在重复项)Towards Open World Object Detection思路:开辟一个新的问题,检测前景里未被标注的目标,backbone使用fasterrcnn,设计聚类目标回归网络,在一阶段通过IOU以及obeject confidence选出候选
2021-03-20 09:37:34 365
原创 堆胶囊网络:打破CNN瓶颈
何为CNN瓶颈首先,CNN based卷积神经网络主体思路在于抽象任务转化为objective,梯度回传形成并记录先验滤波核(卷积核),随后的测试中,卷积核内积即可对相似像素激活,最后生成sparse特征图,而这种内积方式的最直接结果则是平移不变性,但平移不变性真的好吗。从业深度学习算法多年的工程师可能都会意识到一个问题,图像每个patch的推理不能仅依靠其自身内部信息,还需要其他像素相关的信息,换言之,cnn算法缺乏人类一样的联想能力,基于此发展来的图卷积(GloRe),关系网络(Relation
2021-03-20 09:08:04 495
原创 CNN,位移不变性探索, Making Convolutional Networks Shift-Invariant Again
未经transform增强的数据,在面对样本位移时会丧失鲁棒性,针对这一问题Making Convolutional Networks Shift-Invariant Again做出了解释并提出解决方案:论文中认为,常规CNN网络产生shift-variance是由于stride以及下采样的操作过硬导致的用一维数据很容易理解,用k=2,s=2的maxpool对[0,0,1,1,0,0,1,1]操作时得到[0,1,0,1],当数据发生平移[0,1,1,0,0,1,1,0],输出结果发生巨大变.
2020-08-28 10:28:32 756
原创 高像素精度语义分割,CascadePSP
项目原因,从事过高像素精度的前景语义分割算法的研发,实际验证后细粒度最好的算法为PSPnet,其他还尝试了deeplabv3+,DAnet,DASSP,想要训练像素精度极高的分割网络需要大量tricks,有兴趣的同学可以私聊讨论。基于对现有项目精度进一步迭代的想法,关注到了CVPR2020的CascadePSP,该算法级联于常规分割算法之后,可以对PSPnet分割结果做进一步finer,算法原理直接上图算法原理很清晰,主体backbone以及head和pspnet一致,Resnet连接一个金字塔
2020-07-29 15:07:09 1227 2
原创 Background Matting: The World is Your Green Screen,来啊,一起来抠图呀
CVPR2020评价颇高的一抠图算法,非常适用于static background的相关领域,可用高细粒度的前景提取,以及背景替换(可用于小样本数据增强),目前github开源已经三千多星论文地址:https://arxiv.org/abs/2004.00626代码:https://github.com/senguptaumd/Background-Matting上算法原理前,需要介绍,抠图物理模型是基于I = αF + (1 − α)B , 很好理解, I是原图,F是前景,B是背景,alp
2020-07-11 15:21:39 791
原创 一篇视频时序检测的老算法:R-C3D(一图读算法)
最近翻了一篇老论文R-C3D: Region Convolutional 3D Network for Temporal Activity Detection,该文使用3D卷积+temporal proposal进行时序检测,算法思路简单明了,直接上图:该算法思路可理解为,将双阶段的目标空间检测向时序维度检测的扩展,因为输入添加了时间维度,故使用了3D卷积,经过backbone前向,将原本L帧的视频信息采样至L/8帧,对L/8的每一帧预测K个temporal anchor proposals,每个p
2020-07-06 14:49:05 699
原创 Context R-CNN一种基于注意力机制的视频检测算法
最近遇到同一环境下,拍摄多张图片,检测结果存在差异的问题,故调研,考虑使用融合多帧信息去解决上述问题,发现这篇论文,该算法适用于我当前的问题,更适用于从事监控领域的同学,算法细节不赘述,看算法主体思路:算法前半部分与双阶段RPN网络基本无异, 只是输入为多帧图片,得到若干anchor box的featrues,其中关键帧提取出n个,关键帧与其他帧共m个,此处双阶段检测相比于单阶段在视频信息融合上体现出了优势,即可以提取语义特征后接融合算法,接下来就是融合RPN的信息,论文中使用了attention机
2020-06-28 18:33:20 2617 2
原创 DETR 史上最暴力目标检测算法 End-to-End Object Detection with Transformers
近期拜读了facebook的最新力作DETR,不得不说被这极致的暴力美学惊艳到了,对于当下目标检测算法,不管是anchor free 还是anchor based,都存在一大诟病,该算法提出了一条解决思路首先简要说明该算法的主体思路之所以称之为暴力美学是因为,该算法几乎抛弃所有的先验规则约束,一句话,网络直接预测坐标,来,直接上图说话结构相对的明了,但我们依然化繁为简,图片输入后经过常规backbone得到语义空间向量(feature map),之后直接利用该语义空间向量全局回归目标类别以及
2020-06-05 17:14:16 6490
原创 ChineseFoodNet: A Large-scale Image Dataset for Chinese Food Recognition 数据集下载链接
我是ChineseFoodNet数据集的制作人之一,数据集的采集以及整理使用了很多方法,也花费了很多心血,由于数据集初期发布在微软网盘,不便于各位同学下载,现放出百度网盘链接,欢迎大家使用讨论和学习。下载链接https://pan.baidu.com/s/1WlgNypHtFd_G6G7czbEngQ提取码cg0o该数据库除美的集团和旗下科研机构外,不可用于其他商业用途,违者必究责任...
2020-05-27 14:56:26 7051 35
原创 GroupFace算法主体思路
论文GroupFace: Learning Latent Groups and Constructing Group-based Representations for Face Recognition中,提供了一新型细粒化识别方法,并刷新了多项目SOTA,算法思路简洁但不失华丽,这里对该算法主体思路做简述直接上图,算法主体思路是典型的注意力机制,backbone后,两条分支,一条用于输出N条组语义向量,一条用于输出N条语义向量的加权系数,很像SEnet,但作者对加权系数向量的抽象含义做了进一.
2020-05-27 14:41:00 1991
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人