深度学习
文章平均质量分 83
梦坠凡尘(AICV与前沿)
这个作者很懒,什么都没留下…
展开
-
百川大模型【Baichuan-13B】发布:更大尺寸、更多数据、对话能力更强
Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 tokens,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。在Baichuan-13B文件夹下新建文件夹baichuan-inc,然后从https://huggingface.co/baichuan-inc/Baichuan-13B-Chat置于baichuan-inc文件夹中。但是我量化后推理体感变慢了?原创 2023-07-14 00:42:25 · 848 阅读 · 0 评论 -
万物识别RAM:高精度地识别任何常见类别,Zero-Shot能力超越有监督方式
一个强大的图像标记基础模型。RAM为计算机视觉中的大型模型迈出了实质性的一步,展示了zero-shot能力,可以高精度地识别任何常见类别。RAM为图像标记引入了一种新的范例,利用大规模的图像文本对进行训练,而不是手动标注。RAM的发展包括四个关键步骤。(1)首先,通过文本语义自动解析,大规模获取无标注的图像标签;(2)随后,通过统一标题和标注任务,分别由原始文本和解析标签监督,训练一个初步的自动标注模型。(3)其次,利用数据引擎生成额外的注释并清除不正确的注释。原创 2023-07-10 23:26:34 · 489 阅读 · 0 评论 -
VisCPM:清华系开源的多模态大模型,支持中英双语对话和文图生成
同样提供了两个模型版本,分别为VisCPM-Paint-balance和VisCPM-Paint-zhplus,前者在英文和中文两种语言上的能力较为平衡,后者在中文能力上更加突出。---------------------------------------文生图-----------------------------------------------------------------------------多轮对话--------------------------------------原创 2023-07-10 23:16:21 · 430 阅读 · 0 评论 -
中科院开源多语言大模型Bayling【百聆】:性能媲美GPT-3.5
大型语言模型(llm)在语言理解和生成方面表现出了非凡的能力。从基础llm到后续llm,指令调整在使llm与人类偏好保持一致方面起着至关重要的作用。然而,现有的llm通常专注于英语,导致非英语语言的表现较差。为了提高非英语语言的性能,需要为基础llm收集特定语言的训练数据,并构建特定语言的指令进行指令调优,这两者都是繁重的工作。为了最大限度地减少人工工作量,我们建议通过交互式翻译任务将语言生成和指令遵循的能力从英语转移到其他语言。原创 2023-07-10 23:07:27 · 515 阅读 · 1 评论 -
U-Lite:仅有878K参数的UNet家族最小成员,性能优于UneXt
卷积神经网络(cnn)和基于transformer的模型由于能够提取高级特征和捕获图像的重要方面而被广泛应用于医学图像分割。然而,通常需要在高精度和低计算成本之间进行权衡。具有较高参数的模型理论上可以获得更好的性能,但也会导致更高的计算复杂度和更高的内存使用,因此不适合实现。在本文中,我们寻找一种轻量级的基于u - net的模型,它可以保持相同甚至达到更好的性能,即U-Lite。我们基于深度可分卷积的原理设计了U-Lite,使该模型既可以利用cnn的强度,又可以减少大量的计算参数。原创 2023-07-04 23:19:54 · 1129 阅读 · 2 评论 -
CLIP与Chinese-CLIP:多模态预训练模型解读和图文检索体验
CLIP是2021年OpenAI提出的基于图文对比学习的多模态预训练模型,具备强大的zero-shot迁移能力。数据集:来源于互联网上搜集的4亿个image-text对,涵盖了50万个qurey,并尽量保持不同qurey的数据量均衡。核心思想:将image-text对当做一个整体,基于对比学习的方法,模型训练时尽可能地提高image与对应text的特征相似度,尽可能的降低image与不配对text的相似度。原创 2023-07-03 23:53:16 · 6015 阅读 · 2 评论 -
VisualGLM-6B:支持图像、中英文的多模态对话模型解读与本地化部署
之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;以CogView为例,输入token既包含了文本token,也包含了Image token,所以Transformer既建模了文本也建模了图像,并且建模了文本到图像这种跨模态的过程。在生成图像长描述的时候,距离图像较远时,语言模型的将占主导,有一定可能根据上下文生成并不存在于图像的内容。原创 2023-07-03 23:45:40 · 2561 阅读 · 1 评论 -
DIPNet:NTIRE 2023 图像复原和增强赛事Efficient Super-Resolution赛道冠军方案
采用一个多层级蒸馏方法,首先利用增强的 GT 训练一个比较大的 Teacher Net,然后用 Teacher Net 对 Student Net (也就是我们的小模型)进行特征层面和图像层面的蒸馏(除了特征层面的蒸馏监督外,对最后输出图像也进行了大模型输出图像监督以及增强 GT 的监督)。这里在RLFN的块RLFB的基础上,引入了可重新参数化的拓扑结构,包括串行的卷积重参数化和并行的重参数化,这种方法为我们带来的无损的精度提升。式中Φ为剪枝操作,r为剪枝率,Φ为微调操作,sp为第i次剪枝后的网络。原创 2023-07-03 23:35:25 · 950 阅读 · 3 评论 -
轻量级网络CNN系列(二):GhostNetV2
而在 DFC 中,每个 patch 的注意力值的计算直接与它水平或垂直位置的 patch 有关,而这些水平或垂直位置的 patch 的计算又与它们水平或垂直位置的 patch 有关。DW卷积的一个卷积核负责一个通道,例如对一个3×5×5的图片,输出通道数要与输入通道数相同,则普通卷积操作需要3×3×3×3的卷积核,但DW卷积操作只需要3×3×3的卷积核。PW卷积相反,是一个1×1×C的卷积核,对每个通道的相同位置进行加权和,C为输入特征图的通道数,若输出通道数为5,则卷积核shape为C×1×1×5。原创 2023-06-29 22:57:22 · 2322 阅读 · 0 评论 -
轻量级网络CNN系列一:RepGhost
AICV与前沿特征重用是轻量级网络设计中的一个关键技术。目前的方法通常是利用级联运算符通过通过重用来自其他层的特征映射来廉价地保持大通道数(因此大网络容量)。尽管级联与参数和flops无关,但它在硬件设备上的计算成本是不可忽略的。针对这一问题,本文提出了一种利用结构参数化技术实现特征复用而不是使用串联运算符的新思路。通过重参数化实现硬件高效的轻量级CNN模RepGhost模块。基于RepGhost模块,开发了高效的RepGhost bottleneck和轻量级网络RepGhostNet。原创 2023-06-28 23:44:34 · 522 阅读 · 0 评论 -
解决Failed to export an ONNX attribute ‘onnx::Gather‘ 报错
问题使用CAAttention转换onnx时出现如题错误,原因是AdaptiveAvgPool2d()里面的参数没有常量化。class CoordAtt(nn.Module): def __init__(self, inp, oup, reduction=32): super(CoordAtt, self).__init__() self.pool_h = nn.AdaptiveAvgPool2d((None, 1)) self.pool_w =原创 2021-03-12 16:44:50 · 1839 阅读 · 5 评论 -
MNN模型输出与ONNX模型输出对不上
如题,本次bug原因是MNN的输出格式是NC4HW4,需要将其转为NCHW即可。附上MNN文档源码如下:import MNN.expr as Fvars = F.load_as_dict("model.mnn")inputVar = vars["input"]# 查看输入信息print(inputVar.shape)print(inputVar.data_format)# 修改原始模型的 NC4HW4 输入为 NCHW,便于输入if (inputVar.data_format == F.N原创 2020-11-18 21:39:07 · 2091 阅读 · 1 评论 -
加载预训练权重的部分参数
pretrained_dict = ...model_dict = model.state_dict()# pretrained_dict: ['A', 'B', 'C', 'D']# model_dict: ['A', 'B', 'C', 'E']# 1. filter out unnecessary keyspretrained_dict = {k: v for k, v in pretrained_dict.items() if k in model_dict}# pretrain原创 2020-08-24 21:03:07 · 1219 阅读 · 0 评论 -
ReXNet学习笔记 --- ReXNet: Diminishing Representational Bottleneck on Convolutional Neural Network
论文:https://arxiv.org/pdf/2007.00992.pdf代码:https://github.com/clovaai/rexnet挺久没有看新论文了,,只有学习才能让我快乐!!摘要本文解决了网络中的representational bottleneck,并提出了一组可显著提高模型性能的设计原则。作者认为,representational bottleneck可能会出现在由常规设计设计的网络中,并导致模型性能下降。为了研究representational bottleneck,作者原创 2020-07-23 12:14:00 · 2052 阅读 · 2 评论 -
模型剪枝学习笔记 --- EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning
论文:https://arxiv.org/abs/2007.02491代码:https://github.com/anonymous47823493/EagleEye这篇论文一定要好好研究下,提出该剪枝方法的是暗物智能科技&中山大学,当初去面试过该公司,聊了将近一小时,大部分是关于剪枝的内容。。。。。。。可惜自己真实菜如狗。。。。。...原创 2020-07-12 15:09:18 · 4490 阅读 · 8 评论 -
Ubuntu16.04下成功安装C++版本的Opencv4.3
目录环境准备下载Opencv4.3安装配置环境验证安装环境准备安装cmakesudo apt-get install cmake安装依赖环境sudo apt-get install build-essential libgtk2.0-dev libavcodec-dev libavformat-dev libjpeg-dev libswscale-dev libtiff5-devsudo apt-get install libgtk2.0-devsudo apt-get install pk原创 2020-07-06 17:59:29 · 3304 阅读 · 6 评论 -
新优化器SGDP+AdamP:减慢基于动量的优化器的权重增长
论文:https://arxiv.org/pdf/2006.08217.pdf代码:https://github.com/clovaai/AdamP摘要诸如batch normalization(BN)等正则化技术已导致深度神经网络性能的显著改善。先前的研究已经分析了梯度下降(GD)优化器所产生的权重尺度不变的好处:由于步长的自动调整,它导致了稳定的训练。但是,我们表明,结合基于动量的算法,尺度不变性往往会导致权重规范的过度增长。这反过来又过度抑制了训练过程中的有效步长,可能会导致深度神经网络中的次优原创 2020-06-23 14:15:43 · 2214 阅读 · 0 评论 -
卷积核计算个数和BN层gamma系数个数关系
关于卷积核计算的可视化,是一个卷积核对应一个输出通道。这里直接用cs231n课程中的一张卷积动图展示如下:原创 2020-06-16 11:13:29 · 2801 阅读 · 0 评论 -
AC-FPN解读 --- Attention-guided Context Feature Pyramid Network for Object Detection
论文:https://arxiv.org/pdf/2005.11475.pdf代码:https://github.com/Caojunxu/AC-FPN摘要对于目标检测,如何解决高分辨率输入上的特征图分辨率与感受野之间的矛盾要求仍然是一个悬而未决的问题。在本文中,为了解决这个问题,我们建立了一种新颖的体系结构,称为注意力导向的上下文特征金字塔网络(AC-FPN),该体系结构通过集成注意力导向的多路径功能来利用来自各个大型感受野的判别信息。该模型包含两个模块。第一个是上下文提取模块(CEM),它从多个接原创 2020-06-10 16:10:08 · 8334 阅读 · 4 评论 -
目标检测中NMS和mAP指标中的的IoU阈值和置信度阈值
有时候路走的太远,会忘了为什么要出发。学习亦如是在目标检测中,经常看到置信度阈值和IoU阈值这两个关键参数,且NMS计算和mAP计算中都会有这两个,那它们的区别是什么?本文就这个问题做一次总结。NMS模型预测会输出很多框,比如同一个目标会有很多框对应,NMS的作用是删除重复框,保留置信度分数最大的框。mAP...原创 2020-06-03 11:42:44 · 33417 阅读 · 16 评论 -
[目标检测新范式]DETR --- End-to-End Object Detection with Transformers
论文:https://arxiv.org/abs/2005.12872代码:https://github.com/facebookresearch/detr参考https://blog.csdn.net/longxinchen_ml/article/details/86533005原创 2020-05-29 12:22:00 · 48923 阅读 · 10 评论 -
RetinaFace-Pytorch源码阅读
论文:https://arxiv.org/pdf/1905.00641.pdf代码:https://github.com/deepinsight/insightface/tree/master/RetinaFacePytorch复现:https://github.com/biubug6/Pytorch_RetinafacePytorch真香~本文解读代码基于Pytorch复现版。关于RetinaFace理论知识请参考:RetinaFace论文解读先回顾RetinaFace的结构,如下:以上,Re原创 2020-05-27 14:12:13 · 3222 阅读 · 5 评论 -
RetinaFace论文解读 --- RetinaFace: Single-stage Dense Face Localisation in the Wild
论文:https://arxiv.org/pdf/1905.00641.pdf代码:https://github.com/deepinsight/insightface/tree/master/RetinaFacePytorch复现:https://github.com/biubug6/Pytorch_RetinafaceRetinaFace于19年5月份出现,当时取得了state-of-the-art,可以说是目前开源的最强人脸检测算法,先看效果:...原创 2020-05-26 16:45:47 · 5541 阅读 · 0 评论 -
YOLOv4的Tricks解读三--- 目标检测后处理(Soft-NMS/DIoU-NMS)
目录Soft-NMSDIoU-NMSYOLOv4 = CSPDarknet53 + SPP + PAN + YOLOv3YOLOv4采用的trick可以分为以下几类:用于骨干网的 Bag of Freebies(BoF):CutMix和Mosaic数据增强,DropBlock正则化,Label Smooth用于骨干网的 Bag of Specials(BoS):Mish,跨阶段部分连接(CSP),多输入加权剩余连接(MiWRC)用于检测器的 Bag of Specials(BoS):Mish,S原创 2020-05-22 19:36:08 · 13543 阅读 · 10 评论 -
YOLOv4的Tricks解读二 --- 正则化(DropOut/DropConnect/DropBlock)
目录DropOutDropBlockYOLOv4 = CSPDarknet53 + SPP + PAN + YOLOv3YOLOv4采用的trick可以分为以下几类:用于骨干网的 Bag of Freebies(BoF):CutMix和Mosaic数据增强,DropBlock正则化,Label Smooth用于骨干网的 Bag of Specials(BoS):Mish,跨阶段部分连接(CSP),多输入加权剩余连接(MiWRC)用于检测器的 Bag of Specials(BoS):Mish,S原创 2020-05-20 23:27:31 · 4989 阅读 · 2 评论 -
YOLOv4的Tricks解读一 --- 多图融合的数据增强(MixUp/CutMix/Mosaic)
目录数据增强MixUpCutMix==Mosaic==正则化DropOut==DropBlock==YOLOv4中红涉及到了一推的trick,可以说是目标检测的trick字典,而YOLOv4是精挑细选了一些Trick才使YOLOv4在速度和准确度上相比YOLOv3有了更大的提升。本文就YOLOv4中涉及和采用的部分tricks进行总结和学习。(注:标题标红的trick为YOLOv4所采用)YOLOv4 = CSPDarknet53 + SPP + PAN + YOLOv3而YOLOv4采用的tric原创 2020-05-19 23:18:27 · 13290 阅读 · 0 评论 -
YOLOv4实战尝鲜 --- 教你从零开始训练自己的数据集(安全头盔佩戴识别检测)
本文代码基于:https://github.com/ultralytics/yolov3首先介绍数据集,来源于AI研习设的一个比赛,见链接:https://god.yanxishe.com/32原创 2020-05-13 21:49:43 · 30616 阅读 · 205 评论 -
目标检测中的回归损失函数系列四:DIoU Loss / CIoU Loss
论文:https://arxiv.org/pdf/1911.08287.pdfYOLOv-DIoU开源代码:https://github.com/Zzh-tju/DIoU-darknet原创 2020-05-12 14:25:01 · 10231 阅读 · 0 评论 -
目标检测中的回归损失函数系列三:GIoU Loss
出自论文:添加链接描述代码:https://github.com/generalized-iou/g-darknet目标检测中的回归损失函数系列二:IoU Loss已经讲过IoU Loss,GIoU是对IoU的改进,我们再看一次下面这张图:IoU Loss = 1-IoU,其中IoU可以由下计算得到:A,B是预测框和真实框,对应上图中的绿色框和黑色框。综上可以看出两个问题:预测框bbox和ground truth bbox如果没有重叠,IOU就始终为0并且无法优化。也就是说损失函数失去了可原创 2020-05-11 18:02:25 · 4430 阅读 · 0 评论 -
目标检测中的回归损失函数系列二:IoU Loss
IOU Loss出自论文:https://arxiv.org/pdf/1608.01471.pdfL1 和L2 loss是将bbox四个点分别求loss然后相加,并没有考虑靠坐标之间的相关性,而实际评价指标IOU是具备相关性。看一张图关注IoU部分(GIoU先不管):图中第一行,所有目标的L1 Loss都一样,但是第三个的IoU显然是要大于第一个,并且第3个的检测结果似乎也是好于第一个的。第二行类似,所有目标的L1 Loss也都一样,但IoU却存在差异。因此使用bbox和ground truth原创 2020-05-11 14:41:34 · 19209 阅读 · 2 评论 -
目标检测中的回归损失函数系列一:Smooth L1 Loss
SmoothL1 Loss采用该Loss的模型(Faster RCNN,SSD,,)SmoothL1 Loss是在Faster RCNN论文中提出来的,依据论文的解释,是因为smooth L1 loss让loss对于离群点更加鲁棒,即:相比于L2 Loss,其对离群点、异常值(outlier)不敏感,梯度变化相对更小,训练时不容易跑飞。假设x是预测框与 groud truth 之间 elementwise 的差异,那么对比L1/L2/SmoothL1 Loss如下:对应的曲线图如下:对三个lo原创 2020-05-11 14:10:07 · 11312 阅读 · 1 评论 -
PyTorch Cookbook --- 常用代码段整理合集
本文代码基于PyTorch 1.0版本,需要用到以下包import collectionsimport osimport shutilimport tqdmimport numpy as npimport PIL.Imageimport torchimport torchvision1. 基础配置检查PyTorch版本torch.__version__ ...转载 2020-05-08 13:45:30 · 387 阅读 · 0 评论 -
Yolact学习笔记 --- 《YOLACT Real-time Instance Segmentation》
论文:https://arxiv.org/abs/1904.02689代码:https://github.com/dbolya/yolactYolact是2019年出的第一个达到实时的开创性实例分割网络,年底也更新到了Yolact++。去年只是用它跑了自己的数据,但一直没有深入学习这个模型,这次好好学习下。...原创 2020-05-07 15:08:38 · 636 阅读 · 0 评论 -
Stitcher学习笔记:提升小目标检测 --- 简单而有效
论文:https://arxiv.org/abs/2004.12432代码:即将开源(开源后回来更新)大多数目标检测算法在小目标检测上都有显著的性能下降,作者通过统计分析发现,这与训练阶段小目标对损失函数的贡献小有关系,Feedback-driven Data Provider 顾名思义,作者提出了一种基于训练时反馈然后提供数据的方式改进训练,而制作新数据的方式也很简单,就是把图像拼接起来 S...原创 2020-05-06 15:03:56 · 2596 阅读 · 6 评论 -
YOLOv4总结 --- 思维导图
论文:https://arxiv.org/pdf/2004.10934.pdf代码:https://github.com/AlexeyAB/darknet该图来自公众号【计算机视觉联盟】原创 2020-04-30 10:35:24 · 1444 阅读 · 0 评论 -
Python 提取COCO数据集的指定类并保存标签为XML格式
有时候我们会抽取一些公开数据集的某些类别数据作为自己补充训练数据。抽取VOC2012数据集指定类别之前讲到过,参考:Yolov3 行人检测 – 使用Yolov3训练从VOC2012抽取出来的行人数据本文是抽取COCO数据集的指定类别并将标签转为XML格式。...原创 2020-04-29 14:11:15 · 1920 阅读 · 2 评论 -
YOLOv4真的来了!!论文翻译 --- YOLOv4: Optimal Speed and Accuracy of Object Detection
代码:https://github.com/AlexeyAB/darknet论文:https://arxiv.org/abs/2004.10934新鲜出炉的YOLOV4,集大成者。先看看效果对比:由图可以看到,YOLOV4在准确度和效率上都有大幅提升,与Efficientdet相比,在相同的准确率下速度快两倍,相比YOLOv3 AP和速度有10%和12%的提升。...原创 2020-04-26 21:10:27 · 3843 阅读 · 0 评论 -
TResNet学习笔记 --- TResNet: High Performance GPU-Dedicated Architecture
代码:https://github.com/mrT23/TResNet论文:https://arxiv.org/abs/2003.13630阿里达摩院上个月推出的推出的高性能GPU专用模型,比以前的ConvNets具有更高的准确性和效率,性能优于EfficientNet、MixNet等网络。...原创 2020-04-21 15:00:47 · 4529 阅读 · 1 评论 -
【Resnet最强变体】ResNeSt学习笔记 --- ResNeSt: Split-Attention Networks
代码:https://github.com/zhanghang1989/ResNeSt论文:https://hangzhang.org/files/resnest.pdf尽管图像分类模型最近不断发展,但是由于其简单而模块化的结构,大多数下游应用程序(例如目标检测和语义分割)仍将ResNet变体用作backbone。ResNeSt展示了一个简单的模块:Split-Attention,该块可实现跨...原创 2020-04-17 16:55:07 · 10771 阅读 · 10 评论 -
Efficientdet学习笔记 --- EfficientDet: Scalable and Efficient Object Detection
论文:https://arxiv.org/abs/1911.09070代码1(官方):https://github.com/google/automl/tree/master/efficientdet代码2(最强复现):https://github.com/zylo117/Yet-Another-EfficientDet-Pytorch...原创 2020-04-15 16:05:03 · 2238 阅读 · 0 评论