Chinesefoodnet-Tom-CSDN博客

General Instance Distillation for Object Detection思路：通过confidence选的RPN区域，而不仅局限于使用教师网络输出，构建三种网络修正的目标，最终达到学生网络性能优于教师网络（loss内存在重复项）Towards Open World Object Detection思路：开辟一个新的问题，检测前景里未被标注的目标，backbone使用fasterrcnn，设计聚类目标回归网络，在一阶段通过IOU以及obeject confidence选出候选

2021-03-20 09:37:34 365

原创堆胶囊网络：打破CNN瓶颈

何为CNN瓶颈首先，CNN based卷积神经网络主体思路在于抽象任务转化为objective，梯度回传形成并记录先验滤波核（卷积核），随后的测试中，卷积核内积即可对相似像素激活，最后生成sparse特征图，而这种内积方式的最直接结果则是平移不变性，但平移不变性真的好吗。从业深度学习算法多年的工程师可能都会意识到一个问题，图像每个patch的推理不能仅依靠其自身内部信息，还需要其他像素相关的信息，换言之，cnn算法缺乏人类一样的联想能力，基于此发展来的图卷积(GloRe)，关系网络（Relation

2021-03-20 09:08:04 495

原创 CNN，位移不变性探索， Making Convolutional Networks Shift-Invariant Again

未经transform增强的数据，在面对样本位移时会丧失鲁棒性，针对这一问题Making Convolutional Networks Shift-Invariant Again做出了解释并提出解决方案：论文中认为，常规CNN网络产生shift-variance是由于stride以及下采样的操作过硬导致的用一维数据很容易理解，用k=2,s=2的maxpool对[0,0,1,1,0,0,1,1]操作时得到[0,1,0,1]，当数据发生平移[0,1,1,0,0,1,1,0]，输出结果发生巨大变.

2020-08-28 10:28:32 756

原创高像素精度语义分割，CascadePSP

项目原因，从事过高像素精度的前景语义分割算法的研发，实际验证后细粒度最好的算法为PSPnet，其他还尝试了deeplabv3+，DAnet，DASSP，想要训练像素精度极高的分割网络需要大量tricks，有兴趣的同学可以私聊讨论。基于对现有项目精度进一步迭代的想法，关注到了CVPR2020的CascadePSP，该算法级联于常规分割算法之后，可以对PSPnet分割结果做进一步finer，算法原理直接上图算法原理很清晰，主体backbone以及head和pspnet一致，Resnet连接一个金字塔

2020-07-29 15:07:09 1227 2

原创 Background Matting: The World is Your Green Screen，来啊，一起来抠图呀

CVPR2020评价颇高的一抠图算法，非常适用于static background的相关领域，可用高细粒度的前景提取，以及背景替换（可用于小样本数据增强），目前github开源已经三千多星论文地址：https://arxiv.org/abs/2004.00626代码：https://github.com/senguptaumd/Background-Matting上算法原理前，需要介绍，抠图物理模型是基于I = αF + (1 − α)B , 很好理解， I是原图，F是前景，B是背景，alp

2020-07-11 15:21:39 791

原创一篇视频时序检测的老算法：R-C3D（一图读算法）

最近翻了一篇老论文R-C3D: Region Convolutional 3D Network for Temporal Activity Detection，该文使用3D卷积+temporal proposal进行时序检测，算法思路简单明了，直接上图：该算法思路可理解为，将双阶段的目标空间检测向时序维度检测的扩展，因为输入添加了时间维度，故使用了3D卷积，经过backbone前向，将原本L帧的视频信息采样至L/8帧，对L/8的每一帧预测K个temporal anchor proposals，每个p

2020-07-06 14:49:05 699

原创 Context R-CNN一种基于注意力机制的视频检测算法

最近遇到同一环境下，拍摄多张图片，检测结果存在差异的问题，故调研，考虑使用融合多帧信息去解决上述问题，发现这篇论文，该算法适用于我当前的问题，更适用于从事监控领域的同学，算法细节不赘述，看算法主体思路：算法前半部分与双阶段RPN网络基本无异，只是输入为多帧图片，得到若干anchor box的featrues，其中关键帧提取出n个，关键帧与其他帧共m个，此处双阶段检测相比于单阶段在视频信息融合上体现出了优势，即可以提取语义特征后接融合算法，接下来就是融合RPN的信息，论文中使用了attention机

2020-06-28 18:33:20 2617 2

dl643053的博客

原创 PS_V_D_D理论缺陷推导

原创 CVPR2021论文阅读记录

原创堆胶囊网络：打破CNN瓶颈

原创 CNN，位移不变性探索， Making Convolutional Networks Shift-Invariant Again

原创高像素精度语义分割，CascadePSP

原创 Background Matting: The World is Your Green Screen，来啊，一起来抠图呀

原创一篇视频时序检测的老算法：R-C3D（一图读算法）

原创 Context R-CNN一种基于注意力机制的视频检测算法

原创 DETR 史上最暴力目标检测算法 End-to-End Object Detection with Transformers

原创 ChineseFoodNet: A Large-scale Image Dataset for Chinese Food Recognition 数据集下载链接

原创 GroupFace算法主体思路

空空如也

空空如也