自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Angelina_Jolie的博客

欢迎喜欢计算机视觉的友友们一起交流~

  • 博客(83)
  • 收藏
  • 关注

原创 DAF-Net:一种基于域自适应的双分支特征分解融合网络用于红外和可见光图像融合

论文提出了一种新的红外和可见光图像融合方法。该方法旨在结合红外图像和可见光图像的互补信息,以提供更全面的场景理解。红外图像在低光和复杂环境中擅长捕捉热辐射,而可见光图像则保留了丰富的细节和颜色。然而,红外与可见光图像在成像原理、分辨率和光谱响应上的显著差异,给融合过程中保留关键信息带来了挑战。为了解决这些问题,本文提出了一种双分支特征分解融合网络(DAF-Net),并引入了域自适应技术,以实现不同模态间的特征对齐。

2024-09-27 20:48:36 973

原创 在深度学习中,是否应该打破正负样本1:1的迷信思想?

如果任务很简单(如上图第一行的数据分布,线性可分) ,那么即便有很悬殊的正负样本数量比例(如最右侧,正负样本 1:100),也不影响模型可以直接在原始数据上学习得到一个完美的分类边界,并实现 0 错误率:见下图第一行,即使 IR=100 模型也可以实现 0 分类错误(分类错误的 sample 由红色表示)。但通常我们都更加关心少数类样本(positive cases,例如医疗诊断中的病人、欺诈/攻击检测中的恶意用户等)并使用 balanced accuracy,macro-f1 等 metric。

2024-09-25 15:28:32 807

原创 一定用得到的时频分析方法!广义S变换、小波变换、短时傅里叶变换(STFT)、Wigner-Ville 分布,直接运行!

综上,不同的时频分析方法在原理和特点上有所区别。选择合适的方法通常取决于所要分析的具体信号,例如对时域或频域分辨率的需求,对非平稳性的处理能力,以及对计算复杂性的容忍度,需多方面权衡进行选择。时频谱上可以看出,广义 S 变换采用的高斯窗函数依据信号的频率不同,做出相应的窗口的改变,并且修正了小波变换的相位问题,因此在时频谱上相比,其时间分辨率和频率分辨率都有明显的改善。分布的时频分辨率很高,也有很好的时频聚集性,比较适合分析非平稳的信号,但是其缺点是时频面存在很严重的交叉项干扰问题,影响了时频分析的结果。

2024-09-23 10:45:44 759

原创 幽默解释卷积的本质以及物理意义

信号的角度卷积表示为y(n) = x(n)*h(n)使用离散数列来理解卷积会更形象一点,我们把y(n)的序列表示成y(0),y(1),y(2) and so on; 这是系统响应出来的信号。同理,x(n)的对应时刻的序列为x(0),x(1),x(2)...and so on;其实我们如果没有学过信号与系统,就常识来讲,系统的响应不仅与当前时刻系统的输入有关,也跟之前若干时刻的输入有关,因为我们可以理解为这是之前时刻的输入信号经过一种过程(这种过程可以是递减,削弱,或其他)对现在时刻系统输出的影响,

2024-09-23 10:40:25 1137

原创 SCI投稿7个阶段的邮件模板!

在SCI论文投稿过程中,经常会遇到各种问题需要跟编辑联系,小编总结了SCI投稿7个阶段的邮件模板,供大家学习和参考,具体文章建议根据模板修改重写。

2024-08-05 09:21:17 487

原创 什么是扩散模型(Diffusion Models),为什么它们是图像生成的一大进步?

也许过去十年在计算机视觉和机器学习方面的突破是GANs(生成式对抗网络)的发明——这种方法引入了超越数据中已经存在的内容的可能性,是一个全新领域的敲门砖,现在称为生成式建模。然而,在经历了一个蓬勃发展的阶段后,GANs开始面临平台期,其中大多数方法都在努力解决对抗性方法面临的一些瓶颈。这不是单个方法的问题,而是问题本身的对抗性。GANs的一些主要瓶颈是:图像生成缺乏多样性模式崩溃多模态分布问题学习训练时间过长由于问题表述的对抗性,不容易训练。

2024-05-25 09:58:19 909

原创 浅谈人工智能的趋势和展望

(1)预训练语言模型(2)视觉和多模态预训练(3)预训练模型的应用(1)可信:小模型时代的价值对齐(2)大模型时代的价值对齐(1)预训练获得基础能力,强化学习进行价值对齐(2)预训练模仿人类,强化学习超越人类(1)“真”多模态:从微调回归预训练(2)系统一 vs. 系统二(3)基于交互的理解和学习(4)超级智能 vs 超级对齐1956年的达特茅斯会议将“”定义为“这一定义催生了模仿人类智能的两种思路-逻辑演绎和归纳总结,它们分别启发了人工智能发展的两个重要阶段:(1)1960至1990年,

2024-05-23 15:05:45 1170

原创 总结优秀的prompt案例,学习更有效的prompt提示词工程写法,值得收藏

上面的一些提示词,我总结到了文档,不方便回复的,后台回复prompt可以获取。结构化的表达、角色设置、workflow、某些咒语、限制是上面提示词的通法,具体问题具体分析,不见得都一定有效,就比如业务上的一些,可能简短的提示词就已经ok了。

2024-05-23 14:54:58 2220

原创 深入研究 Sora 的扩散Transformer(DiT)

扩散主要指的是粒子的散射现象——想想我们如何享受从云层后面窥视的柔和阳光。这种柔和的光芒可以归因于阳光穿过云层时的散射,导致光线向不同方向扩散。粒子的随机运动驱动这种扩散。这正是图像生成中使用的扩散模型所发生的情况。随机噪声被添加到图像中,导致图像中的元素偏离原始图像,从而为创建更精细的图像让路。当我们谈论图像模型的扩散时,要记住的关键概念是“噪声”。该过程从这里开始:[1]

2024-05-22 09:38:04 1016

原创 北理工提出 LTrack 双摄像头系统 | 专注于暗场景多目标跟踪,自动驾驶和夜间监控的福音!

低光照场景在现实世界应用中很普遍(例如自动驾驶和夜间监控)。最近,在各种实际用例中的多目标跟踪受到了很多关注,但在暗场景中的多目标跟踪却鲜少被考虑。在本文中,作者专注于暗场景中的多目标跟踪。为了解决数据集缺乏的问题,作者首先构建了一个低光照多目标跟踪(LMOT)数据集。LMOT提供了由作者的双摄像头系统捕获的、对齐良好的低光照视频对,以及所有视频的高质量多目标跟踪标注。然后,作者提出了一种低光照多目标跟踪方法,称为LTrack。作者引入了自适应低通下采样模块,以增强图像中除传感器噪声之外的低频成分。

2024-05-20 09:34:03 1103 1

原创 ICLR 2024爆火!杰出论文出炉!

然后通过仔细编排沿不同轴的丰富数据,本文表明 UniSim 可以成功地合并不同轴数据的经验并泛化到数据之外,通过对静态场景和对象的细粒度运动控制来实现丰富的交互。作者提出了这种现象发生的关键假设,并提供了一个简单而优雅的解决方案,使用额外的 register tokens 来解决这些痕迹,从而增强了模型在各种任务上的性能。,是朝着这个方向迈出的重要一步,也是一项工程壮举,它利用了基于视觉感知和控制的文本描述的统一接口来聚合数据,并通过利用视觉和语言领域的最新发展来训练机器人模拟器。

2024-05-19 09:42:37 706

原创 顶刊必备的图,原来这么简单!t-SNE降维,特征可视化,可解释性,深度学习故障识别,回归预测的必备工具!2个应用示例,直接运行!

t-SNE的目标是帮助我们在一个更低维度的空间中(通常是2D或3D)对数据进行可视化,同时保留数据点之间的相似性关系。t-SNE的目标是最小化这两个概率分布之间的差异,以确保高维空间中相似的点在低维空间中仍然保持相似。然后,在低维空间中,它再计算点与点之间的相似性,并构建另一个概率分布。t-SNE的核心思想是保持高维空间中数据点之间的相似性关系,尽量在低维空间中保持相似的关系。简而言之,t-SNE让我们在一个更容易理解的低维空间中看到数据点,同时尽量保持原始数据点之间的相似性关系。

2024-05-19 09:29:15 1021 1

原创 CVPR24|指定参考图像的风格迁移!DEADiff:解耦图像风格和语义表示进行成对训练

本文提出了一种双解耦表示提取机制,分别获得参考图像的风格表示和语义表示,从学习任务的角度缓解了文本和参考图像之间的语义冲突问题。

2024-05-12 09:21:42 1157

原创 ICML 2024 | 文生图新SOTA!Pika北大斯坦福联合推出RPG:多模态助力解决文生图两大难题

论文地址:https://arxiv.org/pdf/2401.11708.pdf代码地址:https://github.com/YangLing0818/RPG-DiffusionMaster论文作者提出了一个全新的免训练文本到图像生成/编辑框架,利用多模态大语言模型(MLLM)强大的思维链推理能力,来增强文本到图像扩散模型的组合性。简单来说,就是能让文生图模型在面对「多个属性和关系的多个对象的复杂文本提示」时表现更出色。

2024-05-12 09:13:25 979

原创 低质多模态数据融合,多家机构联合出了篇综述论文

幸运的是,由于多模态数据模态之间的互补性和信息的冗余性,在多模态融合过程中,联合多个模态的信息进行去噪已被证明是行之有效的策略。尽管在传统的多模态融合任务中,不确定性感知的动态融合方法的优越性已经从实验和理论上得到了证明,但是,在SOTA的多模态模型(不限于融合模型,如CLIP/BLIP等)中,动态性的思想还具有较大挖掘和应用潜力。为了充分刻画低质量多模态数据的性质及处理方法,该文章对目前的低质量多模态融合领域的机器学习方法进行了总结,系统回顾了该领域的发展过程,并进一步展望了需进一步研究的问题。

2024-05-08 09:52:40 965

原创 BS-Diff | 扩散模型在骨抑制任务上的首次登场!

胸部 X 射线(CXR)是肺部筛查中常用的低剂量方式。然而,由于大约 75% 的肺部区域与骨骼重叠,这反过来又阻碍了疾病的检测和诊断,因此 CXR 的功效受到了一定程度的影响。作为一种补救措施,骨抑制技术已经问世。目前临床上使用的双能量减影成像技术需要昂贵的设备, 而且受试者会暴露在高辐射下。为了规避这些问题,人们提出了基于深度学习的图像生成算法。然而,现有方法在生成高质量图像和捕捉纹理细节(尤其是肺血管)方面存在不足。

2024-05-08 09:44:48 474

原创 全新神经网络架构KAN一夜爆火!

与传统的MLP架构截然不同,且能用更少的参数在数学、物理问题上取得更高精度。比如,200个参数的KANs,就能复现DeepMind用30万参数的MLPs发现数学定理研究。不仅准确性更高,并且还发现了新的公式。要知道后者可是登上Nature封面的研究啊~在函数拟合、偏微分方程求解,甚至处理凝聚态物理方面的任务都比MLP效果要好。而在大模型问题的解决上,KAN天然就能规避掉灾难性遗忘问题,并且注入人类的习惯偏差或领域知识非常容易。甚至直接引出关于的探讨,有人已经准备开始尝试……

2024-05-06 15:18:01 1148

原创 CVPR 2024|NTU联合UM提出InteractDiffusion,即插即用的HOI交互扩散模型

作者首先为每个HOI三元组生成三个不同的主体、动作和客体token。

2024-05-04 14:33:56 1273 1

原创 PyTorch小技巧:使用Hook可视化网络层激活(各层输出)

通过可视化不同的层,可以评估早期层是否捕获边缘和纹理等基本特征,而较深的层是否捕获更复杂的特征。利用 PyTorch 钩子函数来可视化网络中的激活是一种很好的方式,尤其是想要理解不同层如何响应不同输入的情况下。在这个过程中,我们可以捕捉到网络各层的输出,并将其可视化以获得直观的理解。可视化激活,即模型内各层的输出,对于理解深度神经网络如何处理视觉信息至关重要,这有助于诊断模型行为并激发改进。然后我们加载一个预训练的ResNet模型,并在特定的层上设置钩子函数,以在向前传递期间捕获激活。

2024-04-18 17:29:14 220

原创 Transformer的本质图解代码细节全析

尽管宇宙的熵在不断增加,生命体和智能体却能够通过学习在局部范围内实现减熵,即通过摄取和转换能量来增加内部的有序性。Transformer模型正是这样一种智能体,它通过学习数据中的模式和规律,提高了对序列数据的处理能力。本文详细介绍了Transformer模型的所有关键组成部分,并分析了其为什么这么实现,实现的原理是什么。同时每个部分都配有相应的代码实现和解释,希望您能够更深入地理解Transformer模型的工作原理。

2024-04-18 17:14:31 1102

原创 Unet++(pytorch实现)

既然Unet++由多个不同深度的Unet++叠加起来,那么随意去掉一层,前向传播的梯度不会受到任何变化,但你发现Unet++第三个输出的效果和第四个输出效果差不多时,那就可以毫不犹豫删去4层深度的Unet++。比如,直接删去图3中棕色部分,就可以实现剪枝。所以,作者提出了deep supervision,也就是监督每一个深度的Unet++的输出,通过一定的方式来叠加Loss(比如加权的方式),这样就得到了一个经由1、2、3、4层的Unet++的加权Loss(图2 不同深度Unet++融合)。

2024-04-13 14:29:04 836 1

原创 AGI的核心对齐问题:能力泛化和急速左转

当前AI系统存在一定方法和策略来获得更大的模型泛化能力,然而对齐的策略依然是非泛化的,所以模型在获取更强大的泛化能力时往往会伴随着对齐属性的破坏,这可能导致未来AI在未预期的情况下表现出与我们价值观不符的行为,而且如果以当前的状态发展下去,这将是必然的。大多数人对“对齐”的理解是模糊的,而且有些人可能更倾向于以一种机械化的方式来理解动态系统,这可能导致设计出具有广泛功能但无法与人类价值和期望一致的AI系统。

2024-04-10 09:36:17 782

原创 谁将替代 Transformer?

2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经,此后席卷全球的人工智能热潮都可以直接追溯到 Transformer 的发明。Transformer 由于其处理局部和长程依赖关系的能力以及可并行化训练的特点,一经问世,逐步取代了过去的 RNN(循环神经网络)与 CNN(卷积神经网络),成为 NLP(自然语言处理)前沿研究的标准范式。

2024-04-07 15:16:56 839

原创 CVPR 2024 | 拖拽P图又双叒升级了!DragNoise实现更快更准的拖拽编辑

DragGAN 由于其生成能力的限制, 对用户输入的图片编辑会严重失真,即使对于 GAN 生成的图片(下图中小猫),由于其优化的 latent code 为一维特征,缺少空间控制能力,会出现全局变化。2. 扩散语义传播:上一个步骤中优化的 bottleneck 特征包含了目标语义,因此与上面讨论的“middle-block replacement”操作相似,我们通过替换相应的 bottleneck 特征将优化后的 bottleneck 特征传播到所有后续时间步,从而避免了冗余的特征优化。

2024-04-07 15:12:13 639

原创 《Long-CLIP: Unlocking the Long-Text Capability of CLIP》

总的来说,Long-CLIP是一个改进的视觉-语言预训练模型,它通过知识保留的位置上插值和主要成分匹配策略,有效解决了原始CLIP模型在处理长文本输入时的限制。这一模型不仅在长文本图像检索任务中表现出色,而且在零样本图像分类任务中保持了与原始CLIP相当的性能,同时还能以即插即用的方式增强图像生成任务中的长文本处理能力。

2024-03-30 09:49:54 974

原创 Sora背后的技术《可控生成与文本到图像扩散模型》

然后,我们揭示了扩散模型的控制机制,从理论上分析了如何在去噪过程中引入新颖条件进行条件生成。此外,我们提供了这一领域研究的详细概述,从条件视角将其组织成不同的类别:具有特定条件的生成、具有多重条件的生成和通用可控生成。对于所调研的可控生成文献的详尽列表,请参考我们在https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models上的整理仓库。

2024-03-12 09:08:46 898

原创 Vision Transformers的注意力层概念解释和代码实现

在这篇文章中我们完成了ViT中注意力层。为了更详细的说明我们进行了手动的代码编写,如果要实际的应用,可以使用PyTorch中的torch.nn. multiheadeattention(),因为他的实现要快的多。

2024-03-10 15:29:58 973

原创 北大发起复现Sora,框架已搭!袁粒田永鸿领衔,AnimateDiff大神响应

对于可变时长,则使用VideoGPT中的Video VQ-VAE,,将视频压缩至潜在空间,支持这一功能。,团队通过参考上海AI Lab刚刚提出的FiT(Flexible Vision Transformer for Diffusion Model,即“升级版DiT”)实施一种动态掩码策略,从而在并行批量训练的同时保持灵活的长宽比。对于可变分辨率,团队则表示在推理过程中,尽管在固定的256x256分辨率上进行训练,,但使用位置插值来实现可变分辨率采样。为什么发起这项计划?因为资源有限,团队希望。

2024-03-07 08:30:00 433

原创 没有思考过 Embedding,不足以谈 AI

这篇文章把我关于语言模型中embedding的理解都介绍完了。但embedding 还不止这些。图像可以有embedding,句子和段落也可以有 embedding —— 本质都是通过一组数来表达意义。段落的 embedding 可以作为基于语义搜索的高效索引,AI 绘画技术的背后,有着这两种 embedding 的互动 —— 未来如果有一个大一统的多模态模型,embedding 必然是其中的基石和桥梁。由 AI 掀起的时代浪潮毫无疑问地要来了,今天是一个还难以看清未来的节点。

2024-03-06 11:14:25 959

原创 基于扩散模型的图像编辑:首篇综述

去噪扩散模型已成为各种图像生成和编辑任务的有力工具,有助于以无条件或输入条件的方式合成视觉内容。这些模型背后的核心理念是学习如何逆转逐渐向图像中添加噪声的过程,从而从复杂的分布中生成高质量的样本。在这份调查报告中,我们详尽概述了使用扩散模型进行图像编辑的现有方法,涵盖了该领域的理论和实践方面。我们从学习策略、用户输入条件和可完成的一系列具体编辑任务等多个角度对这些作品进行了深入分析和分类。

2024-03-06 11:01:40 1405

原创 机器学习的12个基础问题

可能有人认为模型超参数就是或者像是模型参数,但事实并非如此。实际上这两个概念是完全不同的。模型参数是从训练数据集建模的,而模型超参数却完全不是这样,其完全位于模型之外而且不依赖于训练数据。所以模型超参数的作用是什么?实际上它们有以下任务:在训练过程中使用,帮助模型寻找最合适的参数;通常是在模型设计时由人工选择的;可基于几种启发式策略来定义。对于某个具体问题,我们完全不知道最佳的超参数模型是怎样的。

2023-12-13 15:42:52 1314

原创 浅析特征增强&个性化在CTR预估中的经典方法和效果对比

在CTR预估中,主流都采用特征embedding+MLP的方式,其中特征非常关键。然而对于相同的特征,在不同的样本中,表征是相同的,。为了解决这个问题,CTR预估领域提出了一系列相关工作,被称为特征增强模块。,以适应不同样本的特征表示,提升模型的表达能力。最近,复旦大学和微软亚研院联合发布了一篇特征增强工作的总结,对比了不同特征增强模块实现方法的效果。本文给大家介绍一下几种特征增强模块的实现方法,以及本文进行的相关对比实验。

2023-12-13 15:15:41 1147

原创 卷积神经网络中用1*1 卷积有什么作用或者好处呢?

使用1*1卷积核,实现降维和升维的操作其实就是channel间信息的线性组合变化,3*3,64channels的卷积核后面添加一个1*1,28channels的卷积核,就变成了3*3,28channels的卷积核,原来的64个channels就可以理解为跨通道线性组合变成了28channels,这就是通道间的信息交互。右侧操作数:w*h*256*1*1*64 + w*h*64*3*3*64 +w*h*64*1*1*256 = 69632*w*h,,左侧参数大概是右侧的8.5倍。(实现降维,减少参数)

2023-12-04 10:22:49 1344

原创 卷积核的基本概况

在数学上,卷积核的标准定义是其中,函数g一般称为,函数f指的是。在卷积神经网络里,卷积核其实就是一个过滤器,但在深度学习里,它不做反转,而是直接元素的乘法和加法,我们把这个又称为,在深度学习里称为那为什么在图像处理上,需要进行卷积处理呢。实际上是借鉴于科学家的研究结果——上个世纪科学家就发现,视觉皮层的很多神经元都有一个小的局部感受野,神经元只对有限区域的感受野上的刺激物做出反应。不同的感受野可以重叠,他们共同铺满整个视野。

2023-12-04 10:18:43 1227

原创 attention中Q,K,V的理解

1.首先定义三个线性变换矩阵,query,key,value:注意,这里的query, key, value只是一种操作(线性变换)的名称,实际的Q/K/V是它们三个的输出 2.假设三种操作的输入都是同一个矩阵,这里暂且定长度为L的句子,每个token的特征维度是768,那输入就是(L,768),每一行就是一个字,像这样:乘以上面三种操作就得到了Q、K、V,(L,768)*(768,768)=(L,768),维度其实没变,即此刻的Q、K、V分别为:代码为:3.然后实现这个操作:① 首先是Q和K矩

2023-11-29 10:49:50 1247

原创 ImageReward:文本到图像生成中的人类偏好学习

ImageReward和ReFL的概览。(上)ImageReward的标注和训练,包括数据收集、标注和偏好学习。(下)ReFL利用ImageReward的反馈直接优化后随机去噪步骤的扩散模型ImageReward解决方案由以下几个步骤组成:专业的大规模数据集ImageRewardDB:约13.7万个⽐较pairs,完全开源。通⽤的反映⼈类对于⽂本到图像偏好的模型ImageReward:文生图奖励模型之先锋,优于现有的⽂本-图像评分⽅法,例如CLIP、Aesthetic和BLIP;

2023-10-26 10:16:12 394

原创 计算机视觉中的数据预处理与模型训练技巧总结

计算机视觉主要问题有图像分类、目标检测和图像分割等。针对图像分类任务,提升准确率的方法路线有两条,一个是模型的修改,另一个是各种数据处理和训练的技巧(tricks图像分类中的各种技巧对于目标检测、图像分割等任务也有很好的作用,因此值得好好总结。本文在精读论文的基础上,总结了图像分类任务的各种tricks如下:WarmupCutoutAdaBoud其他经典的tricks。

2023-10-24 11:21:33 1056

原创 传统图像增强三大类别:点增强、空域增强、频域增强

图像增强是图像模式识别中非常重要的图像预处理过程。图像增强的目的是通过对图像中的信息进行处理,使得有利于模式识别的信息得到增强,不利于模式识别的信息被抑制,为图像的信息提取及其识别奠定良好的基础。图像增强按实现方法不同可分为点增强、空域增强和频域增强。

2023-10-24 10:27:37 913

原创 解决样本不均衡问题

注:本文主要探讨分类任务的类别不均衡,回归任务的样本不均衡详见《

2023-10-24 10:11:32 192

原创 SCI常用经典词和常用句型(一)

1. individuals, characters 替换 people , persons.2. positive, favorable, rosy, promising, perfect, pleasurable, excellent, outstanding, superior 替换 good.3. dreadful, unfavorable, poor, adverse, ill 替换 bad(如果bad做表语,可以有be less impressive替换。)4. an army of, a

2023-10-11 10:01:22 100

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除