计算机视觉
文章平均质量分 87
计算机视觉的基础、最前沿理论以及理解
Wanderer001
AR/VR软件与硬件技术:图像增强、图像分类、语义分割、目标检测、目标跟踪、风格迁移、强化学习、三维重建、SLAM
展开
-
Color exploitation in HOG-based traffic sign detection
摘要我们在一个具有挑战性的大规模真实全景图像数据集上研究交通标志检测。核心处理是基于HOG (Histogram of Oriented Gradients)算法,该算法通过在特征向量中加入颜色信息进行扩展。颜色空间的选择对性能有很大的影响,其中我们发现CIELab和YCbCr颜色空间给出了最好的结果。颜色的使用显著提高了检测性能。我们比较了特定算法和HOG算法的性能,并表明HOG在大多数情况下比特定算法的性能高出数十个百分点。此外,我们提出了一种新的迭代支持向量机训练范式来处理背景外观的大变化。这减少原创 2024-04-12 00:49:46 · 648 阅读 · 0 评论 -
Unsupervised Image-to-Image Translation Networks
大多数现有的图像到图像翻译框架——将一个域中的图像映射到另一个域的对应图像——都是基于监督学习的,即学习翻译函数需要两个域中对应的图像对。这在很大程度上限制了它们的应用,因为在两个不同的领域中捕获相应的图像通常是一项艰巨的任务。为了解决这个问题,我们提出了基于变分自动编码器和生成对抗性网络的无监督图像到图像翻译(UNIT)框架。所提出的框架可以在没有任何对应图像的情况下在两个域中学习翻译函数。我们通过结合权重共享约束和对抗性训练目标来实现这种学习能力。原创 2023-11-20 19:19:09 · 301 阅读 · 0 评论 -
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization
Gatys等人最近引入了一种神经算法,该算法以另一幅图像的风格渲染内容图像,实现了所谓的风格转换。然而,他们的框架需要缓慢的迭代优化过程,这限制了其实际应用。已经提出了使用前馈神经网络的快速近似来加速神经风格的转移。不幸的是,速度的提高是有代价的:网络通常局限于一组固定的风格,无法适应任意的新风格。在本文中,我们提出了一种简单而有效的方法,首次实现了实时的任意风格转移。我们方法的核心是一个新的自适应实例归一化(AdaIN)层,它将内容特征的均值和方差与风格特征的均值、方差对齐。原创 2023-10-12 21:33:26 · 145 阅读 · 0 评论 -
EXEMPLAR GUIDED UNSUPERVISED IMAGE-TOIMAGETRANSLATION WITH SEMANTIC CONSISTENCY
图像到图像(I2I)翻译是指将图像从源域映射到目标域的任务,例如语义映射到真实图像、灰度图像到彩色图像、低分辨率图像到高分辨率图像等等。深度学习的最新进展极大地提高了I2I翻译方法在许多应用中的质量,修复、属性转移、风格转移和领域自适应。这些工作中的大多数在这些跨领域I2I翻译任务中都非常成功,因为它们依赖于成对训练数据的大型数据集作为监督。原创 2023-10-12 16:23:56 · 71 阅读 · 0 评论 -
CoMoGAN: continuous model-guided image-to-image translation
CoMoGAN是一个依赖于函数流形上目标数据的无监督重组的连续GAN。为此,我们引入了一种新的函数实例归一化层和残差机制,它们将图像内容从目标流形上的位置中分离出来。我们依靠原始的物理模型来指导训练,同时允许私有的模型/翻译功能。CoMoGAN可以与任何GAN主干一起使用,并允许新类型的图像翻译,例如循环图像翻译(如延时生成)或分离线性翻译。在所有数据集上,它都优于文献。图像到图像(i2i)翻译网络学习域之间的翻译,将从数据集学习的目标外观应用于源图像的上下文。原创 2023-10-10 19:58:27 · 220 阅读 · 0 评论 -
Multimodal UnsupervisedImage-to-Image Translation
计算机视觉中的许多问题旨在将图像从一个领域转换到另一个领域,包括超分辨率、着色、修复、属性转移和风格转移。因此,这种跨域图像到图像的翻译设置受到了极大的关注。当数据集包含成对的例子时,可以通过条件生成模型或简单回归模型来解决这个问题。在这项工作中,当无法进行此类监督时,我们将重点放在更具挑战性的环境上。在许多场景中,感兴趣的跨域映射是多模式的。例如,由于天气、时间、照明等原因,冬季场景在夏季可能会有许多可能的外观。不幸的是,现有技术通常采用确定性或单峰映射。因此,它们未能捕捉到可能输出的全部分布。原创 2023-09-07 20:43:38 · 213 阅读 · 0 评论 -
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
跨域生成出现在许多机器学习任务中,包括神经机器翻译、图像合成、文本风格转移和视频生成。特别是,基于生成对抗性网络的变体,非配对(或无监督)图像到图像的翻译已经取得了令人印象深刻的进展,并且由于其实际应用,包括着色、超分辨率、语义操作和领域自适应,也引起了相当大的关注。然而,这一研究领域的先前方法往往无法完成具有挑战性的任务,特别是当翻译任务涉及实例形状的重大变化或要翻译的图像包含多个目标实例时。原创 2023-08-31 20:15:26 · 182 阅读 · 0 评论 -
Cross-Domain Car Detection Using UnsupervisedImage-to-Image Translation: From Day to Night
深度学习技术使几种最先进的模型得以出现,以解决不同领域的问题,如图像分类、回归和目标检测,这是本工作的重点。然而,这些技术是数据驱动的,这意味着在测试数据集中实现的性能在很大程度上取决于训练数据集。因此,缺乏注释数据集可能会阻碍这些模型的训练。因此,当需要一个域(即目标域)中的高性能模型,但该模型是在不同但相似的域(即源域)上训练时,就会出现具有挑战性的场景。在这些情况下,目标域和源域在语义上非常接近,但在外观上非常不同。原创 2023-06-29 14:54:40 · 191 阅读 · 0 评论 -
Self-Ensembling with GAN-based Data Augmentation for Domain Adaptation in Semantic Segmentation
语义分割在计算机视觉领域得到了广泛的研究。它的目标是为图像中的每个像素分配图像类别标签。基于深度神经网络的各种算法已经通过足够数量的注释数据集实现了高性能。然而,创建用于语义分割的大型标记数据集成本高昂且耗时。为了克服注释负担,研究人员利用现代计算机图形学轻松生成带有地面实况标签的合成图像。不幸的是,在实践中,使用合成数据训练的模型在现实领域中表现不佳,因为存在一种称为领域偏移的分布差异。无监督域自适应通过将知识从源域中的标记数据集转移到目标域中的未标记数据集来处理域转移。原创 2023-06-13 16:07:06 · 145 阅读 · 0 评论 -
Multi-source Domain Adaptation for Semantic Segmentation
语义分割为图像中的每个像素分配语义标签(例如,汽车、骑自行车的人、行人、道路)。该计算机视觉内核在许多应用中发挥着至关重要的作用,从自动驾驶[1]和机器人控制到医学成像和时尚推荐。随着深度学习,特别是卷积神经网络的出现,已经提出了几种端到端的语义分割方法。尽管这些方法取得了有希望的结果,但也存在一些局限性。一方面,训练这些方法需要具有像素级注释的大规模标记数据,这是非常昂贵和耗时的。例如,在Cityscapes数据集中标记每个图像大约需要90分钟。原创 2023-06-13 12:17:40 · 525 阅读 · 0 评论 -
Domain Adaptation for Structured Output viaDiscriminative Patch Representations
随着大规模注释数据集[8]的可用性,深度学习对许多计算机视觉任务产生了重大影响,如对象识别、检测或语义分割。不幸的是,当在不同于标记的训练数据的测试域上进行评估时,学习的模型可能无法泛化。无监督域自适应(UDA)已被提出,以弥补源域和目标域之间的不匹配所带来的性能差距,其中标记数据可用。UDA通过仅利用来自目标域的未标记数据来规避昂贵的数据注释过程。沿着这条路线,已经开发了许多UDA方法,并成功应用于分类任务。UDA对于像素级预测任务(如语义分割)更为关键,因为注释的成本高得令人望而却步。原创 2023-06-12 21:19:46 · 184 阅读 · 0 评论 -
文章创新点和贡献的写作句式
我们提出了...解决了...问题我们引入了...解决了...问题原创 2022-02-15 11:27:35 · 453 阅读 · 0 评论 -
Task-Driven Super Resolution: Object Detection in Low-resolution Images
目录摘要1、简介2、相关工作3、任务驱动的超分3.1、组成网络3.2、任务驱动的训练3.3、训练步骤4、实验结果4.1、实现细节4.2、训练计划比较4.3、在比较困难的情况下,与不同的SR方法进行比较4.4、定向分析5、结论摘要研究了图像超分辨率(SR)对低分辨率图像中目标检测任务的影响。直观上,SR对目标检测任务产生了积极的影响。虽然之............原创 2022-08-07 20:27:51 · 1023 阅读 · 3 评论 -
计算机视觉最新进展概览2021年11月28日到2021年12月04日
1、SwinTrack: A Simple and Strong Baseline for Transformer TrackingTransformer最近在改进视觉跟踪算法方面显示出明显的潜力。然而,现有的基于Transformer的跟踪器大多使用Transformer来融合和增强卷积神经网络(CNN)生成的特征。相比之下,在本文中,我们提出了一种完全基于注意力的Transformer跟踪算法,Swin-Transformer Tracker (SwinTrack)。SwinTrack使用Trans原创 2022-02-15 11:27:37 · 380 阅读 · 0 评论 -
计算机视觉最新进展概览2021年11月21日到2021年11月27日
无原创 2022-02-15 11:27:39 · 551 阅读 · 0 评论 -
计算机视觉最新进展概览2021年11月14日到2021年11月20日
1、TraSw: Tracklet-Switch Adversarial Attacks against Multi-Object Tracking得益于深度神经网络的发展,多目标跟踪取得了长足的进步。目前,基于实时联合检测跟踪的运动目标跟踪器受到越来越多的关注,并衍生出许多优秀的模型。然而,JDT跟踪器的鲁棒性很少被研究,并且攻击MOT系统是具有挑战性的,因为其成熟的关联算法被设计成对跟踪期间的错误具有鲁棒性。在本文中,我们分析了JDT跟踪器的弱点,并针对MOT的完整跟踪流水线,提出了一种新的对抗攻击原创 2022-02-15 11:27:42 · 1688 阅读 · 0 评论 -
Camouflaged Object Detection
安装opencv时候总是报错,呜,错误如上,修改方法就是加上版本信息,采用低版本的opencv。pip install opencv-python==3.4.9.31承接Matlab、Python和C++的编程,机器学习、计算机视觉的理论实现及辅导,本科和硕士的均可,咸鱼交易,专业回答请走知乎,详谈请联系QQ号757160542,非诚勿扰。...原创 2022-03-07 14:23:55 · 4003 阅读 · 1 评论 -
计算机视觉最新进展概览2021年11月7日到2021年11月13日
1、3D Siamese Voxel-to-BEV Tracker for Sparse Point Clouds由于动态环境中激光雷达点的稀疏性,点云中的三维目标跟踪仍然是一个具有挑战性的问题。在本文中,我们提出了一种voxel-to-BEV跟踪器,它可以显著提高稀疏三维点云的跟踪性能。具体来说,它由Siamese形状感知特征学习网络和voxel-to-BEV目标定位网络组成。Siamese形状感知特征学习网络可以获取目标的三维形状信息,学习目标的判别特征,从而识别出稀疏点云背景中的潜在目标。为此,.原创 2022-02-16 14:52:18 · 3589 阅读 · 0 评论 -
计算机视觉最新进展概览2021年10月31日到2021年11月6日
1、Learning Distilled Collaboration Graph for Multi-Agent Perception为了促进多智能体感知中更好的性能带宽权衡,我们提出了一种新的蒸馏协作图(DiscoGraph),用于建模智能体之间的可训练、姿态感知和自适应协作。我们的创新主要体现在两个方面。首先,我们提出了一个通过知识蒸馏训练DiscoGraph的师生框架。教师模式采用了早期协作的整体观点输入;学生模型是基于具有单视图输入的中间协作。我们的框架通过约束学生模型中的协作后特征映...原创 2022-02-16 14:52:20 · 1317 阅读 · 0 评论 -
计算机视觉最新进展概览2021年10月24日到2021年10月30日
1、NAS-FCOS: Efficient Search for Object Detection Architectures神经体系结构搜索(Neural Architecture Search, NAS)通过自动发现最优的体系结构,在有效减少网络设计的人工工作量方面显示了巨大的潜力。值得注意的是,尽管目标检测在计算机视觉中具有重要的意义,但到目前为止,NAS算法对目标检测的接触还比较少。据我们所知,目前大多数针对目标检测任务的NAS研究都未能在结果模型的性能和效率之间取得令人满意的平衡,更不用说..原创 2022-02-16 14:52:26 · 2178 阅读 · 0 评论 -
Deep visual domain adaptation: A survey
摘要深度视觉域适配作为一个解决大量标注数据缺失的新的学习技巧而出现。与传统的学习共享特征子空间或使用浅层表示重用重要源实例的方法相比,深度域适应方法通过将域适应嵌入深度学习管道中,利用深度网络学习更多可迁移的表示。对于浅域适应的研究已经有了全面的调查,但很少及时回顾基于深度学习的新兴方法。在这篇论文中,我们提供了一个全面的调查深入领域适应方法的计算机视觉应用有四个主要贡献。首先,根据定义两个领域如何分化的数据属性,我们给出了不同深度领域适应场景的分类。其次,我们根据训练损失将深度领域适应方法归纳为若干类原创 2022-02-20 12:01:57 · 706 阅读 · 0 评论 -
计算机视觉最新进展概览2021年10月18日到2021年10月23日
1、Anisotropic Separable Set Abstraction for Efficient Point Cloud Representation Learning在各种移动设备中嵌入的激光雷达传感器已经广泛促进了对3D点云表示的访问。这导致了对快速和准确的点云处理技术的需求。在本文中,我们将重新访问并更深入地研究PointNet++,这是最有影响力但尚未开发的网络之一,并开发更快、更准确的模型变体。我们首先提出了一个新的可分离集抽象(SA)模块,该模块将PointNet++中使用的...原创 2022-02-20 12:03:27 · 1265 阅读 · 0 评论 -
idea讨论
1、现有的域适配方法都针对源域和目标域目标类别一致,是否可以研究类别不同时怎么迁移,和小样本目标检测有什么区别和联系?原创 2022-02-15 11:27:24 · 900 阅读 · 0 评论 -
DOMAIN ADAPTATION FOR REINFORCEMENT LEARNING ONTHE ATARI
权重初始化对于训练神经网络至关重要,好的初始化权重可以有效的避免梯度消失等问题的发生。在pytorch的使用过程中有几种权重初始化的方法供大家参考。注意:第一种方法不推荐。尽量使用后两种方法。# not recommenddef weights_init(m):classname = m.__class__.__name__if classname.find('Conv') != -1:m.weight.data.normal_(0.0, 0.02)elif classnam原创 2022-05-10 11:17:35 · 2597 阅读 · 0 评论 -
计算机视觉最新进展概览2021年9月14日到2021年9月22日
tf.shapetf.shape( input, name=None, out_type=tf.int32)例如:将矩阵的维度输出为一个维度矩阵import tensorflow as tfimport numpy as npA = np.array([[[1, 1, 1], [2, 2, 2]], ...原创 2022-02-17 09:19:50 · 631 阅读 · 0 评论 -
Adversarial Reinforcement Learning for Unsupervised Domain Adaptation
创建一个常数张量,传入list或者数值来填充 # Constant 1-D Tensor populated with value list. tensor = tf.constant([1, 2, 3, 4, 5, 6, 7]) => [1 2 3 4 5 6 7] # Constant 2-D tensor populated with scalar value ...原创 2022-02-17 09:19:42 · 1148 阅读 · 4 评论 -
Improving 3D Object Detection with Channel-wise Transformer
tf.meshgrid 函数meshgrid( *args, **kwargs)定义在:tensorflow/python/ops/array_ops.py。参见指南:张量变换>张量形状的确定与改变广播用于计算 N 维网格的参数。给定 N 个一维坐标数组 *args,返回N 维坐标数组的列表输出,用于计算 N 维网格上的表达式。Note:me...原创 2022-02-20 12:03:37 · 1525 阅读 · 0 评论 -
2021年8月29日到2021年9月4日
tf.no_optf.no_op(name=None)什么都不做,仅做为点位符使用控制边界。参数:name: 操作名字(可选)Returns:创建的操作#!/usr/bin/env python2# -*- coding: utf-8 -*-"""Created on Mon Aug 27 11:16:32 2018@author: myhaspl"""i...原创 2022-02-17 09:19:27 · 740 阅读 · 0 评论 -
CenterNet: Keypoint Triplets for Object Detection
摘要尽管近年来从点云进行三维物体检测取得了快速进展,但是缺乏灵活且高性能的建议细化仍然是现有最先进的两级检测器的一大障碍。以前关于改进3D方案的工作依赖于人类设计的组件,例如关键点采样、集合抽象和多尺度特征融合,以产生强大的3D目标表示。然而,这种方法捕捉点之间丰富的上下文相关性的能力有限。在本文中,我们利用高质量的区域提议网络和通道式Transformer架构,以最少的手工设计构建了我们的两阶段3D目标检测框架(CT3D)。所提出的CT3D同时对每个建议中的点要素执行建议感知嵌入和通道式上下文聚合。具原创 2022-02-16 14:53:01 · 1525 阅读 · 0 评论 -
PCL: Proposal Cluster Learning for Weakly Supervised Object Detection
mport sysreload(sys)sys.setdefaultencoding(‘utf-8’)以上是python2的写法,但是在python3中这个需要已经不存在了,这么做也不会什么实际意义。在Python2.x中由于str和byte之间没有明显区别,经常要依赖于defaultencoding来做转换。在python3中有了明确的str和byte类型区别,从一种类型转换成另一种类...原创 2022-02-20 12:03:53 · 1142 阅读 · 0 评论 -
计算机视觉最新进展概览2021年8月22日到2021年8月28日
tensorflow出现LossTensor is inf or nan : Tensor had Inf valueshttps://blog.csdn.net/qq_22291287/article/details/82712050原创 2022-02-20 12:04:03 · 823 阅读 · 0 评论 -
Momentum Contrast for Unsupervised Visual Representation Learning
安装命令sudo apt-get install python-imagingImage模块Image模块是在Python PIL图像处理中常见的模块,对图像进行基础操作的功能基本都包含于此模块内。如open、save、conver、show…等功能。open类 Image.open(file) ⇒ image Image.open(file, mode) ⇒...原创 2022-02-17 09:18:45 · 1611 阅读 · 0 评论 -
计算机视觉最新进展概览2021年8月15日到2021年8月21日
在支持mono-design的过程中,还是有些用户不是很清楚如何启动WebGL,尤其是在XP的环境下,所以简单总结了下,WebGL在主流的浏览器上如何设置,但是对于IE没有详细介绍,由于IE11才支持WebGL,IE6-10只能使用其他办法,所以后期用单独一篇介绍IE的情况。要运行WebGL,必须有一个支持它的浏览器。先来看看在桌面平台上有哪些设备和平台已经支持WebGL了:Google ...原创 2022-02-18 12:04:45 · 1103 阅读 · 0 评论 -
Sparse R-CNN: End-to-End Object Detection With Learnable Proposals
>>> y=torch.range(1,6)>>> ytensor([1., 2., 3., 4., 5., 6.])>>> y.dtypetorch.float32>>> z=torch.arange(1,6)>>> ztensor([1, 2, 3, 4, 5])>>>...原创 2022-02-18 12:04:51 · 7955 阅读 · 1 评论 -
Rank & Sort Loss for Object Detection and Instance Segmentation
Cython代码跟Python不一样,必须要编译。编译经过两个阶段:Cython编译.pyx文件为.c文件 C编译器会把.c文件编译成.so文件(Windows上是.pyd)以下会分节介绍几种方式来建立你的扩展模块。注意: -a 选项,如果使用该选项将会为.c文件生成一份很漂亮的HTML文件,双击高亮的章节部分会展开代码,这对理解,优化和调试模块将会非常有帮助。命令行从命令...原创 2022-02-18 12:04:57 · 1328 阅读 · 0 评论 -
计算机视觉最新进展概览(2021年8月8日到2021年8月14日)
import math def abs_value1(): a = float(input('1.请输入一个数字:')) if a >= 0: a = a else: a = -a print('绝对值为:%f' % a) def abs_value2(): a = float(input('2.请输入一个数字...原创 2022-02-18 12:04:59 · 662 阅读 · 0 评论 -
DetCo: Unsupervised Contrastive Learning for Object Detection
三层瓶颈结构为1X1,3X3和1X1卷积层。其中两个1X1卷积用来减少并增加(复原)维度。3X3卷积层可以看作一个更小的输入输出维度的瓶颈。 上图右侧为瓶颈——Bottleneck架构设计,实际上描述的很形象,但是为什么要这么设计呢?然后找到一篇论文:https://pdfs.semanticsch...原创 2022-02-18 12:05:26 · 2356 阅读 · 0 评论 -
一文看尽 6篇 CVPR2021 伪装目标检测、旋转目标检测论文
目录1.ResNet意义2.ResNet结构3.ResNet50和ResNet1014、基于ResNet101的Faster RCNN5、基于ResNet的FPN1、构建自下而上的网络2、构建金子塔进行上采样、横向连接和融合:6、参考文献ResNet[1]在2015年被提出,在ImageNet比赛classification任务上获得第一名,因为它“简单与实用...转载 2022-02-23 10:53:12 · 3564 阅读 · 1 评论 -
MDETR - Modulated Detection for End-to-End Multi-Modal Understanding
用于解析固定长度输入特性配置的类。若要将稀疏输入视为密集输入,请提供default_value;否则,对于任何缺少此特性的示例,解析函数都将失败。Fields:shape: 输入数据的形状。 dtype: 输入的数据类型。 default_value: 如果示例缺少此特性,则使用的值。它必须兼容dtype和指定的形状。性能:default_value字段2 dtype的...原创 2022-02-21 14:06:45 · 1926 阅读 · 0 评论 -
计算机视觉最新进展概览(2021年7月25日到2021年7月31日)
为什么呢?当时是这么个情况:a = int('2.2')print (a)结果输入:ValueError: invalid literal for int() with base 10: '2.2'起开始一头雾水,不知道什么意思,后面反应过来,字符串 str 转换成整形 int 中,只能包含数字,不能有其他的。要是想保留原数字,可使用 float 。a = float(...原创 2022-02-22 10:59:55 · 781 阅读 · 0 评论