计算机视觉
文章平均质量分 76
TU商
人工智能、机器视觉从业者
展开
-
【AIGC大模型】2024年02月论文 月总结
第一周:[Baichuan3] https://www.baichuan-ai.com/home [FAVA] https://arxiv.org/abs/2401.06855 [GPTVoiceTasker] https://arxiv.org/abs/2401.14268 [FuseLLM] https://arxiv.org/abs/2401.10491 [Lumiere] https://lumiere-video.github.io [Lumiere专题介绍] AI视频生成:Lumiere(超越原创 2024-02-29 21:22:26 · 1177 阅读 · 0 评论 -
【AIGC大模型】InstantID 赏析
论文地址:https://arxiv.org/abs/2401.07519InstantID 主页:https://instantid.github.io/code:来自小红书的团队 最近开源了InstantID项目。InstantID 凭借着高质量的图像生成能力在 GitHub 热榜上迅速飙升,成为焦点。使用 Textual Inversion、DreamBooth 和 LoRA 等方法进行个性化图像合成取得了重大进展。原创 2024-02-29 20:57:23 · 1222 阅读 · 0 评论 -
关于opencv-python ,torch.tensor,Numpy的width height 的顺序
ROI =Mat[初始高:末尾高,初始宽:末尾宽]高,宽,通道 =Mat.shape。height 表示Y方向。width 表示X方向。//获取图像 高和宽。原创 2023-05-26 20:30:00 · 162 阅读 · 0 评论 -
【AIGC大模型】跑通wonder3D (windows)
先跑通开源工程代码原创 2024-02-25 15:48:20 · 1693 阅读 · 1 评论 -
Transformer Vit Bert 的定义,区别和联系
通过自注意力机制,ViT可以捕捉图像中不同图块之间的全局关系,并在编码器输出后接一个MLP(多层感知机)进行分类任务。它根据每个位置与其他位置的相对重要性,为每个位置计算一个权重向量,然后将每个位置的信息进行加权求和。Bert通过先对大量未标记的文本进行预训练来学习通用的语言表示,然后通过在特定任务上进行微调来适应具体任务。它们都充分利用了Transformer模型中的自注意力机制、多层感知机和编码器结构等核心概念,并在各自领域展现了出色的性能。下面我将详细讨论它们的定义、区别和联系。原创 2023-06-21 20:30:00 · 1628 阅读 · 0 评论 -
cv2.seamlessClone报错 cv2.error: vector<T> too long或者‘cv::_OutputArray::release‘
mask 只有1行或者1列 为大于0的值时 报错: cv2.error: vector too long。mask 只有2行或者2列 为大于0的值时 报错:cv2.error: OpenCV(4.5.5) D:\a\opencv-python\opencv-python\opencv\modules\core\src\matrix_wrap.cpp:1667: error: (-215:Assertion failed) !fixedSize() in function 'cv::_Output原创 2023-02-10 10:29:05 · 1234 阅读 · 0 评论 -
python opencv 判断一点是否在旋转椭圆内
2a为长轴,2b为短轴。对于这个椭圆,如果代入一个点(px,py),使得C>1,那么P在椭圆外,如果C原创 2023-02-08 14:05:23 · 841 阅读 · 0 评论 -
python中 PIL.Image、OpenCV、torch.tensor、numpy图像格式相互转换
3.2 tensor转换为PIL Image。3.3 PIL Image转换为tensor。3.4 Numpy转换为PIL Image。3.1tensor 转换成numpy。1、PIL.Image转换成。组合中正则化操作的前面即可。原创 2023-02-06 15:08:57 · 1045 阅读 · 0 评论 -
DFR: Deep Feature Reconstruction for Unsupervised Anomaly Segmentation 用于无监督异常分割的深度特征重建
DFR: Deep Feature Reconstruction for Unsupervised Anomaly SegmentationDFR:用于无监督异常分割的深度特征重建类型:公开 原文:https://tongtianta.site/oss/paper_pdf/ccf44eb8-bad0-11eb-872a-00163e0d281a_ecb913b8dd2e9e210986f14a375232d3.pdfJie Yang, Yong Shi, ZhiQuan Qi杨洁,石勇,齐志权Ab翻译 2023-02-01 16:48:04 · 2388 阅读 · 0 评论 -
18种热门GAN的PyTorch开源代码 | 附论文地址
这种模型简称AAE,是一种概率性自编码器,运用GAN,通过将自编码器的隐藏编码向量和任意先验分布进行匹配来进行变分推断,可以用于半监督分类、分离图像的风格和内容、无监督聚类、降维、数据可视化等方面。这种变体能够用两组不同域的无标签图像来训练图像翻译器,架构中的主要GAN学习将图像从域U翻译到域V,而它的对偶GAN学习一个相反的过程,形成一个闭环。最小平方GAN(LSGAN)的提出,是为了解决GAN无监督学习训练中梯度消失的问题,在鉴别器上使用了最小平方损失函数。半监督生成对抗网络简称SGAN。转载 2022-12-20 15:00:03 · 1038 阅读 · 0 评论 -
Grad-CAM简介-网络 热力图分析
对于常用的深度学习网络(例如CNN),普遍认为是个黑盒可解释性并不强(至少现在是这么认为的),它为什么会这么预测,它关注的点在哪里,我们并不知道。这里我们简单看下Image Classification任务,首先网络进行正向传播,得到特征层A AA(一般指的是最后一个卷积层的输出)和网络预测值y yy(注意,这里指的是softmax激活之前的数值)。版权声明:本文为CSDN博主「太阳花的小绿豆」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。接着对y c y^cy。原创 2022-12-15 09:57:39 · 1760 阅读 · 0 评论 -
【神经网络深度学习】--常见损失函数
(2)一般的 f(x) 是预测值,在-1到1之间, y 是目标值(-1或1)。其含义是, f(x) 的值在-1和+1之间就可以了,并不鼓励 |f(x)|>1 ,即并不鼓励分类器过度自信,让某个正确分类的样本距离分割线超过1并不会有任何奖励,从而。因为sigmoid的性质,导致 σ′(x) 在 z 取大部分值时会很小(如下图标出来的两端,几乎接近于平坦),这样会使得 η(a−y)σ′(z) 很小,导致参数 w 和 b 更新非常慢。的本质就是衡量在某个参数下,整体的估计和真实的情况一样的概率,越大代表越相近。转载 2022-10-25 18:02:53 · 1858 阅读 · 0 评论 -
【神经网络深度学习】 --激活函数
激活函数(activation function)又称非线性映射函数或是隐藏单元,是神经网络中中最主要的组成部分之一。数据的分布绝大多数是非线性的,而一般神经网络的计算是线性的,引入激活函数,是在神经网络中引入非线性,强化网络的学习能力。所以激活函数的最大特点就是非线性。现阶段的激活函数多种多样,对应着不同的特性。实际建模过程中,当我们需要实现不同功能时,所需要的激活函数往往也不尽相同。所以掌握各种激活函数的特性,才能在工作中按需选择、信手拈来。转载 2022-10-25 17:22:28 · 990 阅读 · 0 评论 -
【深度学习神经网络】--BatchNorm详解
所以每个隐层都会面临 "covariance shift" 的问题 --- 这就是所谓的"Internal Covariance Shift",Internal指的是深层网络的隐层,是发生在网络内部的事情,而不是covariance shift问题只发生在输入层。其主要描述的是训练深度网络的时候经常发生训练困难的问题。随着网络训练的进行, 每个隐层的参数变化使得后一层的输入发生变化->每批训练数据的分布也随之改变->致使网络在每次迭代中都需要拟合不同的数据分布->增大训练的复杂度以及过拟合的风险。转载 2022-10-25 17:14:34 · 1747 阅读 · 0 评论 -
【深度学习神经网络】--卷积神经网络 CNN与LeNet5详解(可训练参数量、计算量、连接数的计算+项目实战)
原文链接:https://blog.csdn.net/qq_37555071/article/details/107629340。转载 2022-10-25 16:00:19 · 2307 阅读 · 1 评论 -
【深度学习神经网络】--CRNN
我们知道 RNN 在每一个时间步的输出为所有字符类别的概率分布,即一个包含每个字符分数的向量,我们取其中最大概率的字符作为该时间步的输出字符,然后将所有时间步得到一个字符进行拼接得到一个序列路径,即最大概率路径,再根据上面介绍的合并序列方法得到最终的预测文本结果。如上图,对于最简单的时序为 2 的字符识别,有两个时间步长(t0,t1)和三个可能的字符为“a”,“b”和“-”,我们得到两个概率分布向量,如果采取最大概率路径解码的方法,则“--”的概率最大,即真实字符为空的概率为0.6*0.6=0.36。转载 2022-10-24 13:33:21 · 2296 阅读 · 0 评论 -
【神经网络深度学习】--梯度消失and爆炸的原因及解决方案
具体来说就是反向传播中,经过每一层的梯度会乘以该层的权重,举个简单例子: 正向传播中f3=f2(wT∗x+b),那么反向传播中,∂f2∂x=∂f2∂f1w,反向传播式子中有w的存在,所以w的大小影响了梯度的消失和爆炸,batchnorm就是通过对每一层的输出做scale和shift的方法,通过一定的规范化手段,所以产生影响的就是刚刚提的三个因素。所以 |σ′(z)w|≤0.25 ,多个小于1的数连乘之后,那将会越来越小,导致靠近输入层的层的权重的偏导几乎为0,也就是说几乎不更新,这就是梯度消失的根本原因。转载 2022-10-21 17:59:04 · 4137 阅读 · 2 评论 -
(神经网络深度学习)--循环神经网络LSTM
如果你经过上面的文章看懂了RNN的内部原理,那么LSTM对你来说就很简单了,首先大概介绍一下LSTM,是四个单词的缩写,Long short-term memory,翻译过来就是长短期记忆,是RNN的一种,比普通RNN高级(上面讲的那种),基本一般情况下说使用RNN都是使用LSTM,现在很少有人使用上面讲的那个最基础版的RNN,因为那个存在一些问题,LSTM效果好,当然会选择它了!二、为什么LSTM比普通RNN效果好?转载 2022-10-21 17:42:36 · 9463 阅读 · 1 评论 -
【神经网络深度学习】--循环神经网络RNN
但是很明显,一个句子中,前一个单词其实对于当前单词的词性预测是有很大影响的,比如预测苹果的时候,由于前面的吃是一个动词,那么很显然苹果作为名词的概率就会远大于动词的概率,因为动词后面接名词很常见,而动词后面接动词很少见。不知道初学的同学能够理解这个图吗,反正我刚开始学习的时候是懵逼的,每个结点到底代表的是一个值的输入,还是说一层的向量结点集合,如何隐藏层又可以连接到自己,比如,当我们在理解一句话意思时,孤立的理解这句话的每个词是不够的,我们需要处理这些词连接起来的整个序列;s是一个向量,它表示。转载 2022-10-21 17:32:30 · 1790 阅读 · 0 评论 -
【无监督】自编码器(Autoencoder)
暂且不谈神经网络、深度学习等,仅仅是自编码器的话,其原理其实很简单。自编码器可以理解为一个试图去还原其原始输入的系统。自编码器模型如下图所示。从上图可以看出,自编码器模型主要由编码器(Encoder)和解码器(Decoder)组成,其主要目的是将输入x转换成中间变量y,然后再将y转换成 x¯ ,然后对比输入x和输出 x¯ 使得他们两个无限接近。转载 2022-10-21 14:02:32 · 2158 阅读 · 0 评论 -
【神经网络深度学习】--语义分割 Unet
Unet 发表于 2015 年,属于 FCN 的一种变体。Unet 的初衷是为了解决生物医学图像的问题,由于效果确实很好后来也被广泛的应用在语义分割的各个方向,如卫星图像分割,工业瑕疵检测转载 2022-10-21 13:57:18 · 1500 阅读 · 0 评论 -
【目标跟踪】--deepsort
DeepSORT是SORT多目标跟踪算法的改进版本,设计了一种新的关联方式,提高了对长时间遮挡的对象追踪的准确率,减少了Id频繁切换的现象。原创 2022-10-21 11:39:04 · 2708 阅读 · 1 评论 -
深入浅出Yolo系列之Yolov5核心基础知识完整讲解 转自江大白【侵删】
Yolov5官方代码中,给出的目标检测网络中一共有4个版本,分别是Yolov5s、Yolov5m、Yolov5l、Yolov5x四个模型。学习一个新的算法,最好在脑海中对算法网络的整体架构有一个清晰的理解。但比较尴尬的是,Yolov5代码中给出的网络文件是yaml格式,和原本Yolov3、Yolov4中的cfg不同。如需下载Yolov5整体的4个网络pt文件及onnx文件,也可点击链接查看下载,便于直观的学习。安装好netron工具,就可以可视化的打开Yolov5的网络结构。这里大白也和之前讲解Yolov3转载 2022-10-21 11:24:52 · 3343 阅读 · 2 评论 -
【神经网络深度学习】-激活函数
激活函数(Activation functions)对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。其主要目的是将A-NN模型中一个节点的输入信号转换成一个输出信号。该输出信号现在被用作堆叠中下一个层的输入。如果我们不运用激活函数的话,则输出信号将仅仅是一个简单的线性函数。线性函数一个一级多项式。现如今,线性方程是很容易解决的,但是它们的复杂性有限,并且从数据中学习复杂函数映射的能力更小。一个没有激活函数的神经网络将只不过是一个线性回归模型(转载 2022-10-21 09:59:35 · 856 阅读 · 0 评论 -
jetsonNX刷机步骤
刷机: sudo ./nx.t503.v1.3.flash.sh (如遇权限问题,执行 sudo chmod +x nx.t503.v1.3.flash.sh)(把T503_16gnx_JP4.6.tar.gz前缀的所有文件合并成一个T503_16gnx_JP4.6.tar.gz文件)合并: cat T503_16gnx_JP4.6.tar.gz* > T503_16gnx_JP4.6tar.gz。(2)找到ssd,按组合键“ctrl+F”对硬盘快速格式化,点击Format;默认最大分区,点击next,原创 2022-10-13 14:45:49 · 1013 阅读 · 0 评论 -
jetson NX Gstreamer 1.0 拉流
硬件解码 拉流rtsp。硬件解码 拉流rtsp。软件解码 拉流rtsp。硬件解码 打开本地视频。原创 2022-09-16 14:49:53 · 1391 阅读 · 0 评论 -
Jetson xvaier nx 安装torch1.6.0 torchvision0.7.0
1、安装PyTorch1.6.0链接: https://pan.baidu.com/s/1c-N5JrWT0UbfratLNmzSiQ提取码: evnm 百度网盘下载 torch-1.6.0-cp36-cp36m-linux_aarch64.whl文件,之后在.whl文件路径下运行:sudo apt-get install python3-pip libopenblas-base libopenmpi-dev pip install Cythonpip install numpy torch-1.6.原创 2022-06-24 09:51:15 · 1111 阅读 · 0 评论 -
Jeston Xavier NX安装opencv 4.4.0
转:Jetson Xavier NX安装cuda opencv4.4.0 - 简书注:要把opencv_contrib-4.2.0/modules/xfeatures2d/test/ 里面没有的,而 opencv-4.2.0/modules/features2d/test/ 里面有的文件 和文件夹都拷贝到 opencv_contrib-4.2.0/modules/xfeatures2d/test/...原创 2022-06-23 16:46:10 · 1217 阅读 · 0 评论 -
coco 数据集 标签 80种类 中英文对照
原创 2022-03-23 13:52:21 · 2761 阅读 · 0 评论 -
win10+vs2015+CUDA10.1+CUDNN7 编译运行 openpose
环境 win10+vs2015+CUDA10.1+CUDNN7 Cmake 3.19.2显卡 :NVIDIA RTX 2060一.GitHub - CMU-Perceptual-Computing-Lab/openpose at v1.7.0下载好源码后解压好待用二. 各种依赖安装1. 运行…/openpose-master/models/中的getModels.bat 下载所需的模型(如果后面报错 调用模型失败 ,请参考github源码 下的说明手动下载相关模型)...原创 2022-02-28 18:20:24 · 302 阅读 · 0 评论 -
Yolov4调用问题: CUDA Error: invalid argument: 成功 Opencv341Yolov4D: ./src/util
环境 X86架构 Ubuntu18.04 Opencv4.4 Yolov4 显卡 RTX2060 CUDA 11.2 CUDNN 8.1构造Detector {}};CUDA Error: invalid argument: 成功 Opencv341Yolov4D: ./src/util一、Darknet编译使用GPU要求显卡是Nvidia卡并且正确安装了CUDA。GPU环境下的编译配置都是在 /darknet/Makefile 文件中定义的,GPU环境的编译有3点更改需要注意。原创 2021-10-28 20:28:51 · 1706 阅读 · 0 评论 -
Yolo v4 目标检测测试demo 模特大赛 (20201220 by shany shang)
yolo v4 模特大赛 test (如有侵权,请及时联系)环境:Win10 家庭中文版Opencv 4.1.0VS2015Yolo v4Cmake_guiCUDA 10.1Cudnn 7.6.3素材:珠海xxx模特大赛素材来自网路,如有侵权,请及时联系本人删除...原创 2020-12-20 12:55:44 · 235 阅读 · 1 评论