计算机视觉
文章平均质量分 87
梦坠凡尘(AICV与前沿)
这个作者很懒,什么都没留下…
展开
-
百川大模型【Baichuan-13B】发布:更大尺寸、更多数据、对话能力更强
Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 tokens,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。在Baichuan-13B文件夹下新建文件夹baichuan-inc,然后从https://huggingface.co/baichuan-inc/Baichuan-13B-Chat置于baichuan-inc文件夹中。但是我量化后推理体感变慢了?原创 2023-07-14 00:42:25 · 832 阅读 · 0 评论 -
万物识别RAM:高精度地识别任何常见类别,Zero-Shot能力超越有监督方式
一个强大的图像标记基础模型。RAM为计算机视觉中的大型模型迈出了实质性的一步,展示了zero-shot能力,可以高精度地识别任何常见类别。RAM为图像标记引入了一种新的范例,利用大规模的图像文本对进行训练,而不是手动标注。RAM的发展包括四个关键步骤。(1)首先,通过文本语义自动解析,大规模获取无标注的图像标签;(2)随后,通过统一标题和标注任务,分别由原始文本和解析标签监督,训练一个初步的自动标注模型。(3)其次,利用数据引擎生成额外的注释并清除不正确的注释。原创 2023-07-10 23:26:34 · 477 阅读 · 0 评论 -
VisCPM:清华系开源的多模态大模型,支持中英双语对话和文图生成
同样提供了两个模型版本,分别为VisCPM-Paint-balance和VisCPM-Paint-zhplus,前者在英文和中文两种语言上的能力较为平衡,后者在中文能力上更加突出。---------------------------------------文生图-----------------------------------------------------------------------------多轮对话--------------------------------------原创 2023-07-10 23:16:21 · 423 阅读 · 0 评论 -
中科院开源多语言大模型Bayling【百聆】:性能媲美GPT-3.5
大型语言模型(llm)在语言理解和生成方面表现出了非凡的能力。从基础llm到后续llm,指令调整在使llm与人类偏好保持一致方面起着至关重要的作用。然而,现有的llm通常专注于英语,导致非英语语言的表现较差。为了提高非英语语言的性能,需要为基础llm收集特定语言的训练数据,并构建特定语言的指令进行指令调优,这两者都是繁重的工作。为了最大限度地减少人工工作量,我们建议通过交互式翻译任务将语言生成和指令遵循的能力从英语转移到其他语言。原创 2023-07-10 23:07:27 · 502 阅读 · 1 评论 -
U-Lite:仅有878K参数的UNet家族最小成员,性能优于UneXt
卷积神经网络(cnn)和基于transformer的模型由于能够提取高级特征和捕获图像的重要方面而被广泛应用于医学图像分割。然而,通常需要在高精度和低计算成本之间进行权衡。具有较高参数的模型理论上可以获得更好的性能,但也会导致更高的计算复杂度和更高的内存使用,因此不适合实现。在本文中,我们寻找一种轻量级的基于u - net的模型,它可以保持相同甚至达到更好的性能,即U-Lite。我们基于深度可分卷积的原理设计了U-Lite,使该模型既可以利用cnn的强度,又可以减少大量的计算参数。原创 2023-07-04 23:19:54 · 1100 阅读 · 2 评论 -
CLIP与Chinese-CLIP:多模态预训练模型解读和图文检索体验
CLIP是2021年OpenAI提出的基于图文对比学习的多模态预训练模型,具备强大的zero-shot迁移能力。数据集:来源于互联网上搜集的4亿个image-text对,涵盖了50万个qurey,并尽量保持不同qurey的数据量均衡。核心思想:将image-text对当做一个整体,基于对比学习的方法,模型训练时尽可能地提高image与对应text的特征相似度,尽可能的降低image与不配对text的相似度。原创 2023-07-03 23:53:16 · 5293 阅读 · 2 评论 -
VisualGLM-6B:支持图像、中英文的多模态对话模型解读与本地化部署
之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;以CogView为例,输入token既包含了文本token,也包含了Image token,所以Transformer既建模了文本也建模了图像,并且建模了文本到图像这种跨模态的过程。在生成图像长描述的时候,距离图像较远时,语言模型的将占主导,有一定可能根据上下文生成并不存在于图像的内容。原创 2023-07-03 23:45:40 · 2498 阅读 · 1 评论 -
DIPNet:NTIRE 2023 图像复原和增强赛事Efficient Super-Resolution赛道冠军方案
采用一个多层级蒸馏方法,首先利用增强的 GT 训练一个比较大的 Teacher Net,然后用 Teacher Net 对 Student Net (也就是我们的小模型)进行特征层面和图像层面的蒸馏(除了特征层面的蒸馏监督外,对最后输出图像也进行了大模型输出图像监督以及增强 GT 的监督)。这里在RLFN的块RLFB的基础上,引入了可重新参数化的拓扑结构,包括串行的卷积重参数化和并行的重参数化,这种方法为我们带来的无损的精度提升。式中Φ为剪枝操作,r为剪枝率,Φ为微调操作,sp为第i次剪枝后的网络。原创 2023-07-03 23:35:25 · 935 阅读 · 3 评论 -
轻量级网络CNN系列(二):GhostNetV2
而在 DFC 中,每个 patch 的注意力值的计算直接与它水平或垂直位置的 patch 有关,而这些水平或垂直位置的 patch 的计算又与它们水平或垂直位置的 patch 有关。DW卷积的一个卷积核负责一个通道,例如对一个3×5×5的图片,输出通道数要与输入通道数相同,则普通卷积操作需要3×3×3×3的卷积核,但DW卷积操作只需要3×3×3的卷积核。PW卷积相反,是一个1×1×C的卷积核,对每个通道的相同位置进行加权和,C为输入特征图的通道数,若输出通道数为5,则卷积核shape为C×1×1×5。原创 2023-06-29 22:57:22 · 2288 阅读 · 0 评论 -
轻量级网络CNN系列一:RepGhost
AICV与前沿特征重用是轻量级网络设计中的一个关键技术。目前的方法通常是利用级联运算符通过通过重用来自其他层的特征映射来廉价地保持大通道数(因此大网络容量)。尽管级联与参数和flops无关,但它在硬件设备上的计算成本是不可忽略的。针对这一问题,本文提出了一种利用结构参数化技术实现特征复用而不是使用串联运算符的新思路。通过重参数化实现硬件高效的轻量级CNN模RepGhost模块。基于RepGhost模块,开发了高效的RepGhost bottleneck和轻量级网络RepGhostNet。原创 2023-06-28 23:44:34 · 508 阅读 · 0 评论 -
ReXNet学习笔记 --- ReXNet: Diminishing Representational Bottleneck on Convolutional Neural Network
论文:https://arxiv.org/pdf/2007.00992.pdf代码:https://github.com/clovaai/rexnet挺久没有看新论文了,,只有学习才能让我快乐!!摘要本文解决了网络中的representational bottleneck,并提出了一组可显著提高模型性能的设计原则。作者认为,representational bottleneck可能会出现在由常规设计设计的网络中,并导致模型性能下降。为了研究representational bottleneck,作者原创 2020-07-23 12:14:00 · 2044 阅读 · 2 评论 -
模型剪枝学习笔记 --- EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning
论文:https://arxiv.org/abs/2007.02491代码:https://github.com/anonymous47823493/EagleEye这篇论文一定要好好研究下,提出该剪枝方法的是暗物智能科技&中山大学,当初去面试过该公司,聊了将近一小时,大部分是关于剪枝的内容。。。。。。。可惜自己真实菜如狗。。。。。...原创 2020-07-12 15:09:18 · 4482 阅读 · 8 评论 -
新优化器SGDP+AdamP:减慢基于动量的优化器的权重增长
论文:https://arxiv.org/pdf/2006.08217.pdf代码:https://github.com/clovaai/AdamP摘要诸如batch normalization(BN)等正则化技术已导致深度神经网络性能的显著改善。先前的研究已经分析了梯度下降(GD)优化器所产生的权重尺度不变的好处:由于步长的自动调整,它导致了稳定的训练。但是,我们表明,结合基于动量的算法,尺度不变性往往会导致权重规范的过度增长。这反过来又过度抑制了训练过程中的有效步长,可能会导致深度神经网络中的次优原创 2020-06-23 14:15:43 · 2207 阅读 · 0 评论 -
AC-FPN解读 --- Attention-guided Context Feature Pyramid Network for Object Detection
论文:https://arxiv.org/pdf/2005.11475.pdf代码:https://github.com/Caojunxu/AC-FPN摘要对于目标检测,如何解决高分辨率输入上的特征图分辨率与感受野之间的矛盾要求仍然是一个悬而未决的问题。在本文中,为了解决这个问题,我们建立了一种新颖的体系结构,称为注意力导向的上下文特征金字塔网络(AC-FPN),该体系结构通过集成注意力导向的多路径功能来利用来自各个大型感受野的判别信息。该模型包含两个模块。第一个是上下文提取模块(CEM),它从多个接原创 2020-06-10 16:10:08 · 8328 阅读 · 4 评论 -
目标检测中NMS和mAP指标中的的IoU阈值和置信度阈值
有时候路走的太远,会忘了为什么要出发。学习亦如是在目标检测中,经常看到置信度阈值和IoU阈值这两个关键参数,且NMS计算和mAP计算中都会有这两个,那它们的区别是什么?本文就这个问题做一次总结。NMS模型预测会输出很多框,比如同一个目标会有很多框对应,NMS的作用是删除重复框,保留置信度分数最大的框。mAP...原创 2020-06-03 11:42:44 · 33217 阅读 · 16 评论 -
[目标检测新范式]DETR --- End-to-End Object Detection with Transformers
论文:https://arxiv.org/abs/2005.12872代码:https://github.com/facebookresearch/detr参考https://blog.csdn.net/longxinchen_ml/article/details/86533005原创 2020-05-29 12:22:00 · 48872 阅读 · 10 评论 -
RetinaFace-Pytorch源码阅读
论文:https://arxiv.org/pdf/1905.00641.pdf代码:https://github.com/deepinsight/insightface/tree/master/RetinaFacePytorch复现:https://github.com/biubug6/Pytorch_RetinafacePytorch真香~本文解读代码基于Pytorch复现版。关于RetinaFace理论知识请参考:RetinaFace论文解读先回顾RetinaFace的结构,如下:以上,Re原创 2020-05-27 14:12:13 · 3214 阅读 · 5 评论 -
RetinaFace论文解读 --- RetinaFace: Single-stage Dense Face Localisation in the Wild
论文:https://arxiv.org/pdf/1905.00641.pdf代码:https://github.com/deepinsight/insightface/tree/master/RetinaFacePytorch复现:https://github.com/biubug6/Pytorch_RetinafaceRetinaFace于19年5月份出现,当时取得了state-of-the-art,可以说是目前开源的最强人脸检测算法,先看效果:...原创 2020-05-26 16:45:47 · 5521 阅读 · 0 评论 -
YOLOv4的Tricks解读三--- 目标检测后处理(Soft-NMS/DIoU-NMS)
目录Soft-NMSDIoU-NMSYOLOv4 = CSPDarknet53 + SPP + PAN + YOLOv3YOLOv4采用的trick可以分为以下几类:用于骨干网的 Bag of Freebies(BoF):CutMix和Mosaic数据增强,DropBlock正则化,Label Smooth用于骨干网的 Bag of Specials(BoS):Mish,跨阶段部分连接(CSP),多输入加权剩余连接(MiWRC)用于检测器的 Bag of Specials(BoS):Mish,S原创 2020-05-22 19:36:08 · 13531 阅读 · 10 评论 -
YOLOv4的Tricks解读二 --- 正则化(DropOut/DropConnect/DropBlock)
目录DropOutDropBlockYOLOv4 = CSPDarknet53 + SPP + PAN + YOLOv3YOLOv4采用的trick可以分为以下几类:用于骨干网的 Bag of Freebies(BoF):CutMix和Mosaic数据增强,DropBlock正则化,Label Smooth用于骨干网的 Bag of Specials(BoS):Mish,跨阶段部分连接(CSP),多输入加权剩余连接(MiWRC)用于检测器的 Bag of Specials(BoS):Mish,S原创 2020-05-20 23:27:31 · 4976 阅读 · 2 评论 -
YOLOv4的Tricks解读一 --- 多图融合的数据增强(MixUp/CutMix/Mosaic)
目录数据增强MixUpCutMix==Mosaic==正则化DropOut==DropBlock==YOLOv4中红涉及到了一推的trick,可以说是目标检测的trick字典,而YOLOv4是精挑细选了一些Trick才使YOLOv4在速度和准确度上相比YOLOv3有了更大的提升。本文就YOLOv4中涉及和采用的部分tricks进行总结和学习。(注:标题标红的trick为YOLOv4所采用)YOLOv4 = CSPDarknet53 + SPP + PAN + YOLOv3而YOLOv4采用的tric原创 2020-05-19 23:18:27 · 13274 阅读 · 0 评论 -
YOLOv4实战尝鲜 --- 教你从零开始训练自己的数据集(安全头盔佩戴识别检测)
本文代码基于:https://github.com/ultralytics/yolov3首先介绍数据集,来源于AI研习设的一个比赛,见链接:https://god.yanxishe.com/32原创 2020-05-13 21:49:43 · 30562 阅读 · 205 评论 -
目标检测中的回归损失函数系列四:DIoU Loss / CIoU Loss
论文:https://arxiv.org/pdf/1911.08287.pdfYOLOv-DIoU开源代码:https://github.com/Zzh-tju/DIoU-darknet原创 2020-05-12 14:25:01 · 10194 阅读 · 0 评论 -
目标检测中的回归损失函数系列三:GIoU Loss
出自论文:添加链接描述代码:https://github.com/generalized-iou/g-darknet目标检测中的回归损失函数系列二:IoU Loss已经讲过IoU Loss,GIoU是对IoU的改进,我们再看一次下面这张图:IoU Loss = 1-IoU,其中IoU可以由下计算得到:A,B是预测框和真实框,对应上图中的绿色框和黑色框。综上可以看出两个问题:预测框bbox和ground truth bbox如果没有重叠,IOU就始终为0并且无法优化。也就是说损失函数失去了可原创 2020-05-11 18:02:25 · 4422 阅读 · 0 评论 -
目标检测中的回归损失函数系列二:IoU Loss
IOU Loss出自论文:https://arxiv.org/pdf/1608.01471.pdfL1 和L2 loss是将bbox四个点分别求loss然后相加,并没有考虑靠坐标之间的相关性,而实际评价指标IOU是具备相关性。看一张图关注IoU部分(GIoU先不管):图中第一行,所有目标的L1 Loss都一样,但是第三个的IoU显然是要大于第一个,并且第3个的检测结果似乎也是好于第一个的。第二行类似,所有目标的L1 Loss也都一样,但IoU却存在差异。因此使用bbox和ground truth原创 2020-05-11 14:41:34 · 19198 阅读 · 2 评论 -
目标检测中的回归损失函数系列一:Smooth L1 Loss
SmoothL1 Loss采用该Loss的模型(Faster RCNN,SSD,,)SmoothL1 Loss是在Faster RCNN论文中提出来的,依据论文的解释,是因为smooth L1 loss让loss对于离群点更加鲁棒,即:相比于L2 Loss,其对离群点、异常值(outlier)不敏感,梯度变化相对更小,训练时不容易跑飞。假设x是预测框与 groud truth 之间 elementwise 的差异,那么对比L1/L2/SmoothL1 Loss如下:对应的曲线图如下:对三个lo原创 2020-05-11 14:10:07 · 11250 阅读 · 1 评论 -
Yolact学习笔记 --- 《YOLACT Real-time Instance Segmentation》
论文:https://arxiv.org/abs/1904.02689代码:https://github.com/dbolya/yolactYolact是2019年出的第一个达到实时的开创性实例分割网络,年底也更新到了Yolact++。去年只是用它跑了自己的数据,但一直没有深入学习这个模型,这次好好学习下。...原创 2020-05-07 15:08:38 · 635 阅读 · 0 评论 -
Stitcher学习笔记:提升小目标检测 --- 简单而有效
论文:https://arxiv.org/abs/2004.12432代码:即将开源(开源后回来更新)大多数目标检测算法在小目标检测上都有显著的性能下降,作者通过统计分析发现,这与训练阶段小目标对损失函数的贡献小有关系,Feedback-driven Data Provider 顾名思义,作者提出了一种基于训练时反馈然后提供数据的方式改进训练,而制作新数据的方式也很简单,就是把图像拼接起来 S...原创 2020-05-06 15:03:56 · 2596 阅读 · 6 评论 -
YOLOv4总结 --- 思维导图
论文:https://arxiv.org/pdf/2004.10934.pdf代码:https://github.com/AlexeyAB/darknet该图来自公众号【计算机视觉联盟】原创 2020-04-30 10:35:24 · 1444 阅读 · 0 评论 -
YOLOv4真的来了!!论文翻译 --- YOLOv4: Optimal Speed and Accuracy of Object Detection
代码:https://github.com/AlexeyAB/darknet论文:https://arxiv.org/abs/2004.10934新鲜出炉的YOLOV4,集大成者。先看看效果对比:由图可以看到,YOLOV4在准确度和效率上都有大幅提升,与Efficientdet相比,在相同的准确率下速度快两倍,相比YOLOv3 AP和速度有10%和12%的提升。...原创 2020-04-26 21:10:27 · 3838 阅读 · 0 评论 -
TResNet学习笔记 --- TResNet: High Performance GPU-Dedicated Architecture
代码:https://github.com/mrT23/TResNet论文:https://arxiv.org/abs/2003.13630阿里达摩院上个月推出的推出的高性能GPU专用模型,比以前的ConvNets具有更高的准确性和效率,性能优于EfficientNet、MixNet等网络。...原创 2020-04-21 15:00:47 · 4515 阅读 · 1 评论 -
【Resnet最强变体】ResNeSt学习笔记 --- ResNeSt: Split-Attention Networks
代码:https://github.com/zhanghang1989/ResNeSt论文:https://hangzhang.org/files/resnest.pdf尽管图像分类模型最近不断发展,但是由于其简单而模块化的结构,大多数下游应用程序(例如目标检测和语义分割)仍将ResNet变体用作backbone。ResNeSt展示了一个简单的模块:Split-Attention,该块可实现跨...原创 2020-04-17 16:55:07 · 10754 阅读 · 10 评论 -
Efficientdet学习笔记 --- EfficientDet: Scalable and Efficient Object Detection
论文:https://arxiv.org/abs/1911.09070代码1(官方):https://github.com/google/automl/tree/master/efficientdet代码2(最强复现):https://github.com/zylo117/Yet-Another-EfficientDet-Pytorch...原创 2020-04-15 16:05:03 · 2235 阅读 · 0 评论 -
Yolov3 行人检测 -- 使用Yolov3训练从VOC2012抽取出来的行人数据
文章目录Person数据准备抽取VOC2012的Person类别数据格式转换:XML2TXT划分数据集修改配置训练测试本文博客对自己的yolov3实战做个记录。包含以下几个内容:Person数据准备。本文的数person据集取于VOC2012里面的person类别数据,所以这里 (1)会需要对VO...原创 2020-03-17 22:19:27 · 6150 阅读 · 12 评论 -
YOLOV3 学习笔记 --- YOLOv3: An Incremental Improvement
YOLOv3: An Incremental Improvement论文链接:https://pjreddie.com/media/files/papers/YOLOv3.pdfYolov3是yolo系列的巅峰之作,现广泛应用于工业目标检测中。整体框架图如下:  ...原创 2020-03-06 15:32:22 · 330 阅读 · 0 评论 -
模型剪枝学习笔记 --- Channel Pruning via Automatic Structure Search
Channel Pruning via Automatic Structure Search代码:https://github.com/lmbxmu/ABCPruner论文下载链接:https://arxiv.org/abs/2001.08565该论文是 厦大&鹏程实验室&北大&腾讯优图新提出的一种基于生物启发式搜索算法-人工蜂群(artifical bee colo...原创 2020-03-04 14:53:39 · 2506 阅读 · 0 评论 -
目标检测IOU指标的python实现
IOU指标是目标检测中重要的评价指标,即交集与并集的比值。如图:IOU的计算公式如下:即预测框与真实框的交并比。先计算交集的面积,在计算并集的面积,然后求两者的比值。计算代码如下:其中ground truth的坐标为(x0,y0,w0,h0),bounding box的坐标分别为(x1,y1,w1,h1)W = w0+w1-(max((x0+w0),(x1+w1))-min(x0,...原创 2020-02-21 22:19:16 · 1250 阅读 · 0 评论 -
Tensorrt学习笔记--Tensorrt的基本知识
Tensorrt支持三个ParserCaffe ParserThis parser can be used to parse a Caffe network created in BVLC Caffe or NVCaffe 0.16. It also provides the ability to register a plugin factory for custom layers.UFF...原创 2020-02-20 22:30:14 · 4147 阅读 · 0 评论 -
模型剪枝学习笔记--Layer-wise Pruning and Auto-tuning of Layer-wise Learning Rates
Layer-wise Pruning and Auto-tuning of Layer-wise Learning Rates in Fine-tuning of Deep Networks这篇论文是上个月刚出的关于剪枝方面的论文。作者:首尔大学团队论文下载地址:https://arxiv.org/abs/2002.06048Layer-wise剪枝+AutoLR:深度网络微调中的层级剪枝和...原创 2020-02-20 21:36:55 · 1253 阅读 · 0 评论 -
YOLO 系列损失函数
Yolo v1是Yolo 系列的开山之作,论文中给出了具体的损失函数。其思想本质也极为简单暴力,把目标检测问题看成是一个回归问题,坐标,宽高,分类,置信度(有目标置信度,没有目标置信度)损失都采用平方差损失函数,一顿狂怼,依赖平台算力把目标检测出来,没有什么特别的技巧。。损失函数定义如下:...原创 2020-01-13 17:13:23 · 7027 阅读 · 2 评论