JOJO-XU-CSDN博客

原创【Bug解决】

https://blog.csdn.net/qq_31347869/article/details/123348901

2023-01-08 10:03:41 328 1

原创配置Stratified-Transformer、Point-Transformer系列

Linux下切换cuda版本https://blog.csdn.net/Nirvana15/article/details/119062355。手动配置update-alternatives选择gcc/g++版本。无法打开包括文件: “cuda_runtime_api.h”各版本CUDA 兼容的 GCC 版本总结。ubuntu多版本gcc/g++切换。ubuntu20.4安装gcc5.4。配置正确的CUDA_HOME ,

2022-12-26 22:22:42 716 1

原创 Windows下anaconda配置

运行tensorboard --logdir命令后在本地浏览器访问http://127.0.0.1:16006/即可跳转到tensorboard页面。对于linux该文件在用户根目录下,即~/.condarc,windows系统则在C:\Users\officer。方法一：event.out.tfevents文件保存到本地，再用tensorboard打开。参考：https://www.jb51.net/article/212362.htm。修改改文件,去掉-defaults的那行,然后保存!

2022-09-06 15:06:18 997

原创【科研入门】Latex论文写作辅助工具及期刊查询网站

科研小白论文写作和信息收集辅助工具。

2022-07-16 13:06:07 1054

原创【SLAM十四讲学习笔记】第6讲非线性优化

本节目标位姿变量 xk 可以由 Tk 或 exp(ξk∧) 表达

2022-07-09 16:42:23 289

原创【SLAM十四讲学习笔记】第5讲相机与图像

第5讲相机与图像像素坐标系与成像平面之间，相差了一个缩放和一个原点的平移。设在物理成像平面上固定着一个像素平面 o − u − v。矩阵形式。内参数矩阵(Camera Intrinsics)K。确定相机的内参，也就是所谓的标定。P 的相机坐标应该是它的世界坐标(记为 Pw)，根据相机的当前位姿，变换到相机坐标系下的结果。它描述了 P 的世界坐标到像素坐标的投影关系。其中，相机的位姿 R, t 又称为相机的外参数 (Camera Extrinsics)。外参会随着相机运动发生改变，同时也是

2022-07-09 16:36:14 539

原创【SLAM十四讲学习笔记】第4讲李群与李代数

第4讲李群与李代数它们对加法是不封闭的，关于乘法是封闭的。群(Group)是一种集合加上一种运算的代数结构。我们把集合记作 A，运算记作 ·，那么群可以记作 G = (A, ·)。李群是指具有连续(光滑)性质的群。像整数群 Z 那样离散的群没有连续性质。而 SO(n) 和 SE(n)，它们在实数空间上是连续的。由于 R ̇ (t)R(t)T 是一个反对称矩阵，我们可以找到一个三维向量 φ(t) ∈ R3 与之对应。于是有:同时在 t0 附近，设 φ 保持为常数 φ(t0) = φ0李代

2022-07-09 16:03:02 644

原创【SLAM十四讲学习笔记】第3讲三维空间刚体运动

第3讲三维空间刚体运动外积的方向垂直于这两个向量，大小为 |a| |b| sin ⟨a, b⟩相机运动是一个刚体运动，它保证了同一个向量在各个坐标系下的长度和夹角都不会发生变化。这种变换称为欧氏变换。矩阵 R 描述了旋转本身。因此它又称为旋转矩阵。旋转矩阵是行列式为 1 的正交矩阵。所以，我们可以把旋转矩阵的集合定义如下:SO(n)={R∈Rn×n|RRT =I,det®=1}.SO(n) 是特殊正交群(Special Orthogonal Group)，旋转矩阵的逆(即转置)描述了一个

2022-07-09 15:36:26 586

原创 Linux新服务器配置、服务器用户管理及使用密钥登录教程

sudo user add -d /data2/namenamename -m namenamename -s /bin/bashsudo passwd namenamenamesudo gpasswd -a namenamename docker参考https://www.csdn.net/tags/MtTaEgysNTgzOTctYmxvZwO0O0OO0O0O.htmlLinux账号用户管理与磁盘管理安装 openssh-serversudo apt-get install openssh-se

2022-07-08 16:16:42 687

原创【CVPR2018】利用图像级监督进行弱监督语义分割的学习像素级语义亲和力

Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic SegmentationPaper： https://openaccess.thecvf.com/content_cvpr_2018/papers/Ahn_Learning_Pixel-Level_Semantic_CVPR_2018_paper.pdfCode：https://github.com/jiwo

2022-07-07 22:23:21 1687

原创【TIP2022】物以类聚：领域自适应分割的类别-发散指导

Paper ：https://arxiv.org/pdf/2204.02111目前的无监督域自适应(UDA)模型侧重于通过最小化源域和目标域之间的特征差异来缓解域的偏移，但通常忽略了类混淆问题。在本工作中，我们提出了一种类间分离和类内聚集(ISIA)机制。它鼓励了相同类别之间的跨领域代表性一致性和不同类别之间的差异。通过这种方式，属于相同类别的特征被对齐在一起，可混淆的类别被分开。通过测量每个类别的对齐复杂性，我们设计了一个自适应加权实例匹配(AIM)策略，以进一步优化实例级的自适应。基于我们提出的方法，我

2022-07-07 16:45:09 963

原创【SLAM十四讲学习笔记】第2讲初识 SLAM

第2讲初识 SLAMSLAM 是 Simultaneous Localization and Mapping 的缩写，中文译作“同时定位与地图构建”[1]。它是指搭载特定传感器的主体，在没有环境先验信息的情况下，于运动过程中建立环境的模型，同时估计自己的运[2]。如果这里的传感器主要为相机，那就称为 “视觉 SLAM”。「https://github.com/gaoxiang12/slambook」按照相机的工作方式，我们把相机分为单目(Monocular)、双目(Stereo)和深度相机(RGB-D

2022-07-06 15:59:18 781

原创计算机视觉图像分类入门

图像分类简介https://www.cnblogs.com/paladinzxl/p/9491633.htmlPyTorch简单实现（Nearest Neighbor，Linear Classification，CNN）https://blog.csdn.net/KobeLovesDawn/article/details/86771279几种经典cnn网络介绍https://blog.csdn.net/q1079338373/article/details/82632280网络结构的发展https:

2022-07-06 15:49:35 682

原创知识表示学习与图嵌入综述

知识图谱表示学习对于知识获取和下游应用具有很重要的作用. 知识表示学习的表示空间包括：point-wise空间，流形空间，复数空间，高斯分布和离散空间. 打分函数通常分为基于距离的打分和基于语义匹配的打分函数. 编码模型包括：线性/双线性模型，张量分解和神经网络. 辅助信息考虑文本，视觉和类型信息.1.1.1 Point-wise空间Point-wise的欧式空间是最常用的，将知识图谱中的实体和关系嵌入为向量或者矩阵空间，也有的捕捉关系交互. Point-wise方法包括基于翻译的方法TransE，需要满

2022-07-03 22:00:14 2840 1

原创基于预训练模型的目标检测和组合式图像检索方法

目标检测（Object Detection）的目的是“识别目标并给出其在图中的确切位置”[1]，其内容可解构为三部分：识别某个目标（Classification）；给出目标在图中的位置（Localization）；识别图中所有的目标及其位置（Detection）。从这三点可以看出目标检测的难度要比图像分类大很多，后者只需要确定输入的图像属于哪一类即可，而前者需要从图像中自动抠出（crop）合适大小的patch，并确定它的类别。目标检测的基本思路：同时解决定位（localization） + 检测（detec

2022-07-03 21:12:32 1026

原创多智能体强化学习阅读体会

强化学习的基本思想来源于人类或动物的学习行为，智能体通过与环境进行直接交互，并根据环境反馈的信息，不断调整优化自身策略，作出最优序列决策，获得最大回报。数学上，通常采用马尔可夫决策过程（Markov Decision Process, MDP）来描述强化学习过程。强化学习框架包括五个元素：动作空间(A)，状态空间(S)，状态转移概率§，奖励®和折扣因子()。智能体的策略是动作空间关于状态空间的条件概率分布，即。近年来，随着数据规模的增长，以及越来越复杂的需求，同时得益于越来越强大的计算能力和新技术，尤其是

2022-07-03 21:07:27 258

原创【CVPR2018】Deep Mutual Learning

Paper ：https://openaccess.thecvf.com/content_cvpr_2018/html/Zhang_Deep_Mutual_Learning_CVPR_2018_paper.htmlCode ：https://github.com/YingZhangDUT/Deep-Mutual-Learning模型蒸馏是一种有效的、广泛应用的将知识从教师转移到学生网络的技术。典型的应用程序是从一个强大的大型网络或集成转移到一个小型网络，以满足低内存或快速执行的需求。在本文中，我们提出了一

2022-07-01 19:20:37 277

原创【CVPR2022】基于视频的人体姿态估计中的时间特征对齐和互信息最大化

Temporal Feature Alignment and Mutual Information Maximization forVideo-Based Human Pose Estimation多帧人体姿态估计是具有挑战性的，因为快速运动和姿态遮挡经常发生在视频中。最先进的方法努力结合来自邻近帧（支持帧）的额外视觉证据，以促进对当前帧（关键帧）的姿态估计。到目前为止已经排除的一个方面是，当前的方法直接跨帧聚合未对齐的上下文。当前帧与相邻帧的姿态特征之间的空间偏差可能会导致不令人满意的结果。更重要的是，

2022-06-28 16:20:32 2717

原创【论文阅读】医学图像分割

双分支残差网络（DB-ResNet），集成了两种新方案，以提高模型的泛化能力：1）提出的模型可以同时捕获CT图像中不同结节的多视图和多尺度特征；2）我们结合了强度和卷积神经网络（CNN）的特征。我们提出了一种池化方法，称为中央强度池层（CIP），提取块的中心体素的强度特征，然后使用CNN获得块的中心体素的卷积特征。另外，我们设计了基于结节边界的加权采样策略，以使用加权得分选择那些体素，以提高模型的准确性。所提出的方法已在包含986个结核的LIDC数据集上得到了广泛的评估。实验结果表明，DB-ResNet在数

2022-06-28 11:41:18 1753 1

原创【CVPR2022】【小样本分类和分割】Integrative Few-Shot Learning for Classification and Segmentation

用于分类和分割的综合小样本学习本文介绍了小样本分类和分割(FS-CS)的综合任务，即when the target classes are given with a few examples，对查询图像中的目标对象进行分类和分割。该任务结合了两个传统的小样本分类和分割任务。FS-CS将它们概括为具有任意图像对的更真实的事件，其中每个目标类可能出现在查询中，也可能不存在。为了解决这一任务，我们提出了FS-CS的综合小样本学习(iFSL)框架，该框架训练学习者构建用于多标签分类和像素级分割的类级前景地图。我们

2022-06-27 16:41:36 3535

原创【CVPR2022】NeRF：通过2D-3D相互学习实现三维场景程式化NeRF

Paper：https://openaccess.thecvf.com/content/CVPR2022/papers/Huang_StylizedNeRF_Consistent_3D_Scene_Stylization_As_Stylized_NeRF_via_2D-3D_CVPR_2022_paper.pdf3D场景程式化的目的是根据给定的样式示例，从任意的新视图生成场景的程式化图像，同时确保从不同视图渲染时的一致性。将图像或视频风格化的方法直接应用于三维场景中，并不能达到这种一致性。由于最近提出的神经

2022-06-27 15:45:41 1293

原创【CVPR2022】DAFormer: 改进领域自适应语义分割的网络架构和训练策略

Code：https://github.com/lhoyer/DAFormerPaper: https://openaccess.thecvf.com/content/CVPR2022/papers/Hoyer_DAFormer_Improving_Network_Architectures_and_Training_Strategies_for_Domain-Adaptive_Semantic_CVPR_2022_paper.pdf由于获取真实世界图像的像素级注释以进行语义分割是一个昂贵的过程，因此可以

2022-06-27 14:53:14 2554

翻译【论文阅读】【CVPR2022】Contrastive Learning of Class-agnostic Activation Map

Contrastive Learning of Class-agnostic Activation Map for Weakly Supervised Object Localization and Semantic Segmentation由于前景对象的语义信息不同于背景对象，因此前景对象的表示分布（蓝色）远离背景（绿色）。外观相似或背景具有相似颜色/纹理的前景对象在特征空间中也有相似的表示。基于这些观察结果，可以形成正对和负对的对比学习。利用tSNE[34]来降低特征的维数。1）前景的语义信息通常与背

2022-06-24 16:26:14 1136

原创【论文阅读】【ICLR2022】Unsupervised semantic segmentation by distilling feature correspondences

与以前使用单一的端到端框架来实现这一点的工作不同，我们建议将特征学习从集群紧化 cluster compactification中分离出来。当前的无监督特征学习框架已经产生了密集的特征，其相关性是语义一致的。这一观察结果促使我们设计STEGO（基于能量的图优化的自监督变换器），这是一个新的框架，将无监督特征提取为高质量的离散语义标签。STEGO的核心是一种新的对比损失函数，它鼓励特征形成紧凑的集群，同时保持它们在整个语料库中的关系。STEGO在CocoStuff(+14mIoU)和城市景观(+9mIoU)语

2022-06-24 11:16:09 1193

原创【论文阅读】【CVPR2022】Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation

提取类激活图(CAM)是为弱监督语义分割(WSSS)生成 pseudo mask 的最标准步骤。然而，本文发现，不令人满意的伪掩模的关键是在CAM中广泛使用的二值交叉熵损失(BCE)。具体地说，由于BCE的 sum-over-class pooling 特点，CAM中的每个像素可能对同一接受域中同时出现的多个类做出响应。为此，我们介绍了一种简单但效果惊人的方法：通过使用softmax交叉熵损失(SCE)，用BCE重新激活收敛的CAM，称为ReCAM。给定一幅图像，我们使用CAM提取每个单一类的特征像素，并将

2022-06-23 15:39:45 1507

原创 CE-Net: Context encoder network for 2D medical image segmentation论文阅读

医学图像分割是医学图像分析中的重要步骤。随着卷积神经网络在图像处理中的快速发展，深度学习已被用于医学图像分割，如视盘分割，血管检测，肺部分割，细胞分割等。以前，已经提出了基于U-net的方法。。然而，连续的汇集和跨步卷积操作导致一些空间信息的丢失。在本文中，我们提出了一个上下文编码器网络（称为CE-Net）来捕获更多的高级信息并保留用于2D医学图像分割的空间信息。 CENet主要包含三个主要组件：特征编码器模块，上下文提取器和特征解码器模块。我们使用预训练的ResNet块作为固定特征提取器。上下文提取器模

2022-06-22 19:43:24 386

原创 V-Net: 医学图像分割

卷积网络在计算机视觉和医学图像分析领域有了很广泛的应用。尽管卷积神经网络非常受欢迎，但大多是都是用来处理2D图像，而医学图像却大多是3D的。U-Net是一个全卷积的体数据分割神经网络。它采用端到端的训练方式，包含一个新式的目标函数用于训练时进行优化使用。同时能很好的处理背景和非背景之间的强烈不平衡问题。为了解决数据量有限的问题，使用了非线性变换和直方图匹配的方式来进行数据增强。使用卷积操作来提取数据的特征，于此同时在每个“阶段”的末尾通过合适的步长来降低数据的分辨率。整个结构的左边是一个逐渐压缩的路径，而右

2022-06-22 19:39:31 527

原创 Attention机制

Attention机制最早在视觉领域提出，九几年就被提出来的思想，真正火起来应该算是2014年Google Mind发表了《Recurrent Models of Visual Attention》，使Attention机制流行起来，这篇论文采用了RNN模型，并加入了Attention机制来进行图像的分类。不同于全图扫描，该算法每次仅瞥见图像中的部分区域，并按时间顺序将多次瞥见的内容用循环神经网络加以整合，以建立图像的动态表示。2015年，Bahdanau等人在论文《Neural Machine Tr

2022-06-22 19:07:36 1691

qq_33290813的博客