CV
文章平均质量分 97
神洛华
这个作者很懒,什么都没留下…
展开
-
Stable Diffusion系列课程二:ControlNet
ControlNet直译过来就是控制网,本质上是stable diffusion的扩展插件。在ControlNet出现之前,基于扩散模型的AI绘画是非常难以控制的,这样在一些有具体需求的场景下就变得难以接受。ControlNet实现了很多前所未有的控制效果,有效的解决了这一难题。ControlNet的本质,是输入一些额外的信息来引导扩散模型进行定向生成。原创 2023-08-05 10:20:53 · 2939 阅读 · 1 评论 -
Stable Diffusion系列课程上:安装、提示词入门、常用模型(checkpoint、embedding、LORA)、放大算法、局部重绘、常用插件
介绍了stable diffusion基本功能:安装、提示词入门、常用模型(checkpoint、embedding、LORA)、放大算法、局部重绘、常用插件原创 2023-07-09 21:23:09 · 5734 阅读 · 1 评论 -
Stable Diffusion攻略集(Stable Diffusion官方文档、kaggle notebook、webui资源帖)
文生图模型为通过自然语言指导创作提供了前所未有的自由。然而,目前尚不清楚如何运用这种自由来生成特定独特概念的图像,修改其外观,或将其合成新角色和新场景。换言之,要把现实中的一些新概念()引入到生成中,单从文本出发还是不够的。本文提出了 personalized text-to-image generation,即个性化的文转图生成。可以基于文本+用户给的3-5张图(“new concepts”)来生成新的图像。提出了,用于把图片概念转换成(伪单词)。原创 2022-12-27 08:55:01 · 30459 阅读 · 11 评论 -
李沐论文精度系列之八:视频理解论文串讲
本文从讲解了早期的DeepVedio、2014-2017年2D时代的Two-Stream及其各种改进变体、2017-2020年3D CNN时代的I3D及其各种改进,直到最后的Vedio Transformer这一系列视频理解工作。原创 2022-12-05 15:28:21 · 3178 阅读 · 6 评论 -
李沐论文精度系列之七:Two-Stream双流网络、I3D
视频天然包含更懂得模态信息和数据增强,视频处理是未来深度学习的突破的方向。本文介绍了双流网络和I3D这两篇有影响力的工作,后续会出一次视频论文串讲原创 2022-11-26 22:20:42 · 10805 阅读 · 2 评论 -
李沐论文精读系列六:端到端目标检测DETR、最简多模态ViLT
选了目标检测和多模态的两篇很火的论文原创 2022-11-10 17:27:29 · 3485 阅读 · 2 评论 -
李沐论文精读系列五:DALL·E2(生成模型串讲,从GANs、VE/VAE/VQ-VAE/DALL·E到扩散模型DDPM/ADM)
详细讲了DALL·E2的结构、算法、效果,并补充讲了以前的生成模型知识点原创 2022-11-08 19:47:38 · 8408 阅读 · 2 评论 -
李沐论文精读系列三:MoCo、对比学习综述(MoCov1/v2/v3、SimCLR v1/v2、DINO等)
详细介绍了MoCov1模型,以及14种对比学习方法:Inst Disc、Inva Spread、CMC、CPC、MoCov1/v2/v3、SimCLR v1/v2、SwAV、BYOL、SimSiam、DINO原创 2022-11-03 20:58:07 · 15521 阅读 · 11 评论 -
李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso)
本文重点介绍了CLIP模型,和其在目标检测、语义分割、图像生成领域的扩展工作。原创 2022-10-30 14:21:27 · 22473 阅读 · 5 评论 -
李沐论文精读系列二:Vision Transformer、MAE、Swin-Transformer
本文是参考李沐bilibil论文精度视频和太阳花的视频/博文后所写原创 2022-10-17 13:37:36 · 8104 阅读 · 7 评论 -
OpenCV官方教程节选
Opencv(Open Source Computer Vision Library)是一个基于开源发行的跨平台计算机视觉库,它实现了图像处理和计算机视觉方面的很多通用算法,已成为计算机视觉领域最有力的研究工具。在这里我们要区分两个概念:图像处理和计算机视觉的区别:图像处理侧重于“处理”图像–如增强,还原,去噪,分割等等;而计算机视觉重点在于使用计算机来模拟人的视觉,因此模拟才是计算机视觉领域的最终目标。原创 2022-10-13 15:49:51 · 1784 阅读 · 0 评论 -
PyTorch官方文档——CV篇上:Mask R-CNN实例分割,ConvNet图片分类,对抗训练FGSM
翻译了PyTorch官方文档Image and Video部分教程翻译 2022-10-11 04:57:03 · 804 阅读 · 0 评论 -
生成对抗网络,从DCGAN到StyleGAN、pixel2pixel,人脸生成和图像翻译。
生成式对抗网络模型由两个基础神经网络组成,即生成器神经网络(Generator Neural Network) 和判别器神经网络(Discriminator Neural Network) 。其中一个用于生成内容,另一个则用于判别生成的内容。生成器从给定噪声中(一般是指均匀分布或者正态分布)产生合成数据,判别器分辨生成器的的输出和真实数据。在训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片区分开........................原创 2022-06-23 05:55:59 · 5877 阅读 · 2 评论 -
paddle学习赛——钢铁目标检测(yolov5、ppyoloe+,Faster-RCNN)
PaddleDetection:分别使用ppyoloe+、FasterRCNN+swin进行训练;另外还试了Yolov5和.PaddleX框架的fasterrcnn原创 2022-10-09 06:05:49 · 11280 阅读 · 5 评论 -
yolov5参数解析
大型数据集预训练好的权重主干特征提取能力是比较强的,这个时候我们只需要冻结主干网络,fine-tune后面层就可以了,不需要从头开始训练,大大减少了时间而且还提高了性能。如果开启了noautoanchor,在训练开始前,会自动计算数据集标注信息针对默认锚框的最佳召回率,当最佳召回率大于等于0.98时,则不需要更新锚框;:yolov5使用遗传超参数进化,提供的默认参数是通过在COCO数据集上使用超参数进化得来的(也就是hpy文件夹下默认的超参数)。矩阵推理会加速模型的推理过程,减少一些冗余信息。原创 2022-10-07 22:57:26 · 29632 阅读 · 6 评论 -
PaddleDetection简单教程
简单介绍了paddledetection的用法,并在paddle学习赛——钢铁缺陷检测上试验了ppyoloe+模型原创 2022-07-27 01:20:36 · 8625 阅读 · 3 评论 -
Kaggle——海星目标检测比赛
赛事地址:https://www.kaggle.com/c/tensorflow-great-barrier-reef 赛题目标:建立一个根据珊瑚礁水下视频训练的目标检测模型,实时准确地识别海星。澳大利亚美丽无比的大堡礁是世界上最大的珊瑚礁,有1500种鱼类、400种珊瑚、130种鲨鱼、鳐鱼和大量其他海洋生物。不幸的是,珊瑚礁正面临威胁,部分原因是一种特殊海星的数量过多,这种海星是吃珊瑚的刺海星冠(简称COTS)。原创 2022-10-02 00:58:01 · 4106 阅读 · 0 评论 -
目标检测打卡营下:YOLOv3、PP-YOLO、CornerNet、FCOS
介绍了YOLOv3、PP-YOLO算法及Anchor-Free算法CornerNet、FCOS,以及如何打好AI比赛原创 2022-09-28 09:58:11 · 1568 阅读 · 0 评论 -
华为2022校园赛——车道渲染
比赛详情和baseline见:《如何打一个CV比赛V2.0》。本次比赛我是在colab上跑的,用的是datawhale采样数据集。下载比赛数据集:一、数据预处理1.1 自定义dataset1.2 划分数据集1.3 数据增强目前试验了锐化、Mixup、Augmix、AutoAgmentation,以及入网尺寸,发现入网尺寸为transforms.Resize((352,176)),然后 transforms.CenterCrop([320,160])效果比resize(224,22原创 2022-09-27 23:21:59 · 650 阅读 · 0 评论 -
图片分类网络ViT、MobileViT、Swin-Transformer、MobileNetV3、ConvNeXt、EfficientNetV2
本文详细介绍了常用的图片分类网络:ViT、MobileViT、Swin-Transformer、MobileNetV1-V3、ConvNeXt、EfficientNetV1、V2原创 2022-09-27 05:56:22 · 6544 阅读 · 0 评论 -
动手深度学习13——计算机视觉:数据增广、图片分类
一、数据增广1.1 为何进行数据增广?CES真实案例:几年前,一家做无人售货的公司发现演示机器在现场的效果很差,因为现场在赌城拉斯维加斯,现场与之前的开发测试办公室:色温不同。赌城灯光很暗,偏黄测试demo时机器放在桌子上,桌子很亮,反射后图片取景有变化解决:开场前一天现场测试有问题,马上现场采集数据发回国内,训练一个新的模型,并且买了一块桌布就没有反光了。例如语音识别、CV等场景,训练模型时可以模拟部署场景的各种情况,是提高模型泛化性的一种手段。数据增广的优点:数据增⼴可以原创 2022-05-17 11:30:52 · 4416 阅读 · 4 评论 -
动手深度学习13:计算机视觉——语义分割、风格迁移
一、语义分割1.1 语义分割简介之前的目标检测都是用锚框来标注和预测图片中主体的位置,而锚框有时候框的是大概的位置。语义分割(semantic segmentation)可以识别并理解图像中每一个像素的内容,其语义区域的标注和预测是像素级的。所以,与目标检测相比,语义分割标注的像素级的边框显然更加精细。语义分割应用:无人驾驶:路面分割计算机视觉领域还有2个与语义分割相似的重要问题,即图像分割(image segmentation)和实例分割(instance segmentation原创 2022-05-23 23:24:52 · 1507 阅读 · 3 评论 -
动手深度学习13:计算机视觉——目标检测:锚框算法原理与实现、SSD、R-CNN
一、区域卷积神经网络系列(R-CNN)参考《区域卷积神经网络系列(R-CNN)》1.1 R-CNN使用启发式算法选择锚框使用预训练模型对每个锚框进行特征提取(每个锚框当做一张图片)将每个锚框的提取特征及其标注的类别作为一个样本,训练多SVM对每个锚框进行分类,每个支持向量机用来判断样本是否属于某一个类别。(计算机视觉在神经网络之前主流分类器是SVM)将每个锚框的提取特征及其标注的标注的边界框作为一个样本,训练线性回归模型来预测真实边界框RoI 池化层这里有一个问题:锚框的大小是不一原创 2022-05-23 02:27:17 · 3118 阅读 · 0 评论 -
YOLOv3 SPP源码分析
文件结构:├── cfg : 配置文件目录│ ├── hyp . yaml : 训练网络的相关超参数│ └── yolov3 - spp . cfg : yolov3 - spp网络结构配置│├── data : 存储训练时数据集相关信息缓存│ └── pascal_voc_classes . json : pascal voc数据集标签│├── runs : 保存训练过程中生成的所有tensorboard相关文件(loss、mAP等).....................原创 2022-08-07 17:02:05 · 1433 阅读 · 1 评论 -
学习笔记五:卷积神经网络原理、常见模型
介绍了卷积池化原理、1×1卷积的作用。介绍了VGG、IGoogLeNet、inception、ResNet和ResNeXt。原创 2022-05-06 09:49:08 · 1973 阅读 · 0 评论 -
目标检测打卡营上:VOC/COCO数据集、评测指标&Faster R-CNN等两阶段检测算法
本文介绍了:1. 目标检测基本概念、评测指标2.voc/coco数据集3.R-CNN/Fast-RCNN/Faster- RCNN模型4. FPN检测算法5. Cascade-RCNN检测算法6. Libra R-CNN检测原创 2022-07-18 23:07:41 · 4637 阅读 · 0 评论 -
Faster R-CNN源码解析1(Pytorch版)
本项目参考的版本是Pytorch官方torchvision模块中的faster_rcnn源码。也可以在ipynb文件中输入,按住Ctrl+鼠标右键,点击Go to Definition就可以打开,这两个是一样的。 但是这个其实只是代码的一部分,关于训练的代码在Pytorch官方vision仓库下的可以找到(点此链接)。打开项目地址,README.md中有写文件结构:├── : 特征提取网络,可以根据自己的要求选择。这里可使用或├── : Faster R-CNN网络主要源码部分(包括Fast R原创 2022-08-14 04:17:26 · 2110 阅读 · 1 评论 -
YOLOv1——YOLOX系列及FCOS目标检测算法详解
详细介绍了YOLOv1、YOLOv2、YOLOv3、YOLOv3 SPP 及源码分析、YOLOv4、YOLOv5及demo、FCOS、YOLOvX系列目标检测算法。还有一个推荐的github项目《深度学习在图像处理中的应用教程》原创 2022-07-23 02:52:28 · 4308 阅读 · 1 评论 -
yolov5官网教程&kaggle海星目标检测赛&paddle钢铁缺陷检测赛(VOC格式)
一是用yolov5s V6.1版本训练PASCAL VOC2012数据集,二是稍微翻译了下yolov5官网教程Train Custom Data。亲测通过,中间各种报错、配置文件、改路径都写得很清楚。原创 2022-08-11 00:59:17 · 3060 阅读 · 3 评论