- 博客(185)
- 收藏
- 关注
原创 【debug】安装ComfyUI过程中的问题
ComfyUI 是一款强大的模块化 Stable Diffusion UI,其安装过程通常比较直接。然而,使用官方教程遇到了一些bug,记录一下解决方案。
2025-08-06 11:00:25
1063
原创 【leetGPU】1. Vector Addition
link: https://leetgpu.com/challenges/vector-additionImplement a program that performs element-wise addition of two vectors containing 32-bit floating point numbers on a GPU. The program should take two input vectors of equal length and produce a single out
2025-07-26 19:39:20
569
原创 用PyTorch手写透视变换
Torch,起码是较老版本,没有原生支持可微分的透视变换。为了解决,可以尝试用Torch3D,或者其他3D Torch的库。这里给一个简单的实现。需要注意,非常老的torch不支持。
2025-07-16 22:23:38
762
原创 【diffusers教程】五、噪声调度器的更换与自定义
扩散模型中的噪声调度器 噪声调度器是扩散模型的核心组件,它控制着噪声在扩散过程中的添加方式。摘要如下: 基本原理:扩散模型通过匹配生成分布和真实分布来优化,噪声调度器定义每一步的噪声程度(qπ),让模型(pπ)学习这个过程。 改进方法: iDDPM采用余弦加噪策略 VDM将加噪策略变为可训练参数 调度器类型: 常用调度器包括DDPM(线性)、DDIM(加速)、PNDM(伪数值)等 不同调度器在速度/质量上有权衡,步数范围从10-1000不等 实现方式: 可通过替换预定义配置来更改调度器 支持参数调整(如be
2025-06-26 16:02:22
989
原创 【代码解析】opencv 安卓 SDK sample - 1 - HDR image
本文回顾了Android开发中OpenCV的基础使用,重点解析了一个摄像头处理Activity的实现。主要内容包括: 基础结构:通过继承CameraActivity并实现CvCameraViewListener2接口构建摄像头处理框架 生命周期管理:详细说明了onCreate、onResume、onPause等关键方法的作用 OpenCV集成:展示OpenCV库的初始化过程和图像处理回调机制 核心功能:包含拍照按钮实现、HDR拍摄逻辑和图像处理流程 开发要点:强调了日志记录、内存管理、权限处理等Androi
2025-06-22 22:31:58
1054
原创 Android Studio 中使用 C++ 连接 OpenCV
摘要:本文介绍了在Android Studio中使用JNI和NDK集成OpenCV 4.x的方法。内容包括:环境准备(安装NDK、CMake和OpenCV SDK)、导入OpenCV库模块、配置JNI本地调用(含C++和Java代码示例)、CMakeLists.txt配置、build.gradle设置以及常见问题解决方案。实现通过JNI调用OpenCV C++接口进行图像处理,并提供后续扩展建议。适用于需要在Android应用中实现计算机视觉功能的开发者。
2025-06-17 16:58:12
698
原创 【配置教程】新版OpenCV+Android Studio环境配置(4.11测试通过)
很多教程都无法正常在新版工作,因此这里我更新一下教程。后面会再写一个如何加入cpp的教程。
2025-06-17 16:51:09
1774
原创 手写 Piexel shuffle & 解析
在这个影像无处不在的时代,我们总希望能看到更清晰、更生动的画面。无论是手机里珍藏的照片,还是在线观看的电影,图像质量的好坏,直接影响着我们的视觉体验。然而,很多时候,受限于设备条件、网络带宽或者存储空间,我们得到的往往是分辨率不那么高的图像。这时,就成了解决这个问题的“魔法”,它能把模糊的画面变得清晰可辨。在众多的超分辨率方法中,有一个听起来有点技术范儿,但实际上非常巧妙的技巧,那就是。它就像是图像处理领域里的一位“幕后英雄”,默默地将那些看似杂乱无章的信息,巧妙地重新组合成一幅细节更丰富的画面。
2025-05-20 09:29:12
727
原创 【论文阅读】DynamicControl :一种新的controlnet多条件控制方法
现有方法要么处理条件效率低下,要么使用固定数量的条件,这并不能完全解决多个条件的复杂性及其潜在冲突。这强调了需要创新方法来有效管理多种条件,以实现更可靠和详细的图像合成。为了解决这个问题,我们提出了一个新的框架 DynamicControl ,它支持不同控制信号的动态组合,允许自适应选择不同数量和类型的条件。本文方法从一个双循环控制器开始,它通过利用预先训练的条件生成模型和判别模型为所有输入条件生成初始真实分数排序。此控制器评估提取条件和输入条件之间的相似性,以及与源图像的像素级相似性。
2024-12-25 15:26:08
1599
1
原创 torch.fft 出现 ComplexHalf 或 Half 不支持
【代码】torch.fft 出现 ComplexHalf 或 Half 不支持。
2024-10-16 14:53:27
1072
1
原创 【MAC】安装realsense
找到mac系统版本号,使用如下链接:https://lightbuzz.com/realsense-macos/xxx/Library/Developer/Xcode/DerivedData/libusb-cmlwxbjexygudueqsksnyutfnmry/Build/Products/Release记住编译路径2.56.1install_name_tool -id @loader_path/librealsense2.2.50.0.dylib librealsense2.2.50.0.dylibh
2024-09-24 17:11:51
933
原创 【DEBUG】AttributeError: module ‘lib‘ has no attribute ‘X509_V_FLAG_NOTIFY_POLICY‘
openssl导致涉及到联网的部分出现问题。删除报错的openssl。
2024-09-06 16:39:38
1335
1
原创 【论文+代码】VISION PERMUTATOR 即插即用的多层感知器(MLP)模块
函数是模型的主要执行路径,它将输入图像转化为嵌入特征,通过网络模块进行处理,归一化后通过分类头部输出预测结果。这一步步的处理确保了模型能够有效地提取图像特征,并进行准确的分类。代码链接 https://github.com/houqb/VisionPermutator/blob/main。本文的研究成果在项目的实现过程中起到了至关重要的作用。核心算法和模型训练。
2024-06-06 10:49:40
686
原创 多模态模型入门:BLIP与OWL-ViT
CapFilt:标题和过滤由于多模态模型需要大量数据集,因此通常必须使用图像和替代文本 (alt-text) 对从互联网上抓取这些数据集。然而,替代文本通常不能准确描述图像的视觉内容,使其成为噪声信号,对于学习视觉语言对齐而言并非最佳选择。因此,BLIP 论文引入了一种标题和过滤机制 (CapFilt)。它由一个深度学习模型(可过滤掉噪声对)和另一个为图像创建标题的模型组成。这两个模型都首先使用人工注释的数据集进行微调。他们发现,使用 CapFit 清理数据集比仅使用网络数据集可产生更好的性能。
2024-05-28 10:27:10
1946
原创 使用Docker配置深度学习环境——以diffusers为例
Docker的其他信息可以在我的网站上找到,这里假设安装完成了,直接上手。把放到最前面。
2024-05-15 15:43:55
483
原创 【hugging face】使用纯代码管理仓库
创建和管理存储库Hugging Face Hub是一组 Git 存储库。Git是软件开发中广泛使用的工具,可以在协作工作时轻松对项目进行版本控制。主要有以下问题:创建和删除存储库管理分支和标签重命名您的存储库更新您的存储库可见性管理存储库的本地副本。
2024-04-18 08:59:20
1665
原创 【debug】复现老代码,遇到tensorboard的api改变
最近在复现各种代码时候,遇到了版本不匹配问题。每次新建环境太久了,就开始改代码。这里总结一下有哪些点可以改。从 TensorFlow 1 到 TensorFlow 2 迁移时,TensorBoard 的使用方式也发生了一些变化。这主要是因为 TensorFlow 2 强调更简单和更直观的 API,以及默认启用的 Eager Execution 模式。
2024-04-15 20:34:16
444
原创 pytorch中通道数不一样怎么办?
在深度学习中,1x1卷积(有时也称为点卷积)是一种有效的技术,常用于改变卷积神经网络中特征图的通道数。这种方法可以在不改变特征图空间维度(高度和宽度)的情况下,调整其深度(通道数),从而实现特征图的通道数对齐。除此之外,1x1卷积还可以用于实现网络中的参数降维和增维,以及在某些情况下替代全连接层。
2024-04-11 20:10:10
1921
原创 检查模型的输入输出尺寸以及模型内部各层的尺寸
在PyTorch中,了解和检查模型的输入输出尺寸以及模型内部各层的尺寸对于调试和优化模型极其重要。这可以帮助你确保数据在模型中正确流动,并及时发现尺寸不匹配等问题。
2024-04-11 20:06:01
2859
原创 如何将数据(通常是张量)和模型转移到CUDA设备(即GPU)上
在PyTorch中,将模型和数据移到GPU上进行加速计算是深度学习训练过程中的一个常见步骤。这里将介绍如何将数据(通常是张量)和模型转移到CUDA设备(即GPU)上。
2024-04-11 20:02:56
4989
原创 【CUDA】获取当前显存状态的多种方式:准确性与原理讨论
显存状态的获取对于深度学习任务至关重要,特别是在使用 GPU 进行模型训练和推理时。了解当前显存的使用情况可以帮助我们优化算法、调整超参数,以及有效地管理计算资源。在本文中,我们将讨论多种获取当前显存状态的方法,并探讨它们的准确性和原理。
2024-03-12 09:46:34
6074
1
原创 常用 的 预训练权重格式 safetensor、ckpt、LoRA
检查点成功转换后,您将看到包含转换后的检查点的新存储库的链接。点击新存储库的链接,您将看到 Convert KerasCV Space 生成了一个带有推理小部件的模型卡,用于尝试转换后的模型。根据模型的训练方式,您不一定需要提供 UNet 和文本编码器的路径。在开始之前,请确保您有 Diffusers 的本地克隆来运行脚本并登录到您的 Hugging Face 帐户,以便您可以打开拉取请求并将转换后的模型推送到 Hub。转换这些格式以在 Diffusers 中使用,可以让您使用该库支持的所有功能,例如**
2024-03-07 10:16:02
1850
原创 【Diffusers教程】二、Diffusers 的 pipeline,利用同一个模型完成不同模态任务
对于某些工作流程或者如果您要加载许多管道,从检查点重用相同的组件会更节省内存,而不是重新加载它们,这会不必要地消耗额外的内存。如果您想更改新管道的行为,您可以覆盖原始管道中的任何参数甚至配置。**方法检测原始管道类并将其映射到与您想要执行的任务相对应的新管道类。如果对库和扩散模型不熟悉,可能很难知道要使用哪个管道来完成任务。此方法从先前加载的管道的组件创建新管道,无需额外的内存成本。**您还可以传递特定于管道类的任何其他参数,例如。,并会在幕后加载相应的**如果您想进行修复,则**同样,对于图像到图像,
2024-03-07 09:32:39
1220
原创 【Diffusers教程】一、简介:快速使用Diffusion网络
原始教程地址: https://huggingface.co/docs/diffusers/using-diffusers/write_own_pipeline。
2024-03-06 20:53:02
5994
2
原创 【debug】OSError: Can‘t load tokenizer for ‘XXX‘. If you were trying to load it from ‘https://huggingf
本地目录与 ‘openai/clip-vit-large-patch14’ 同名:如果你的本地目录中有一个名为 ‘openai/clip-vit-large-patch14’ 的文件夹,可能会导致加载错误。请检查你的工作目录或者其他相关目录中是否有同名文件夹,并确保没有命名冲突。模型路径错误:确保 ‘openai/clip-vit-large-patch14’ 是正确的模型路径,可以尝试重新确认模型路径是否正确。
2024-03-06 14:56:14
12363
2
原创 【debug】Pytorch环境冲突
创建一个新的conda环境:如果在当前环境中解决冲突比较困难,考虑创建一个新的conda环境,并在这个新环境中安装需要的包,可以有效避免版本冲突。统一环境中的PyTorch版本:确保pytorch、torchvision和torchaudio都是兼容同一版本的PyTorch。因为torchaudio和torchvision指定了需要特定版本的pytorch,而cudatoolkit又指定了需要特定版本的vs2015_runtime。1.10.1,所以在这一点上它们是兼容的。
2024-02-22 16:07:29
1526
1
原创 【论文阅读】**Cross-Modality depth Estimation via Unsupervised Stereo RGB-to-infrared Translation**
深度估计是许多计算机视觉应用的一项基本任务[1]、[2]、[3]。随着CNN的发展,许多算法进一步提高了深度估计的性能。主流方法是从立体图像估计场景深度。根据训练方式的不同,监督方法[4]、[5]、[6]使用真实视差图直接指导训练,而无监督方法[7]、[8]、[9]将深度估计重新表述为利用立体关系作为监督来辅助训练的图像重建问题。一般来说,大多数现有方法[ 4,5,6,10,11,7,8,9,12,13 ]仅使用可见光(RGB )图像进行估计。
2024-02-22 15:43:26
1000
1
原创 AttributeError: module ‘configparser‘ has no attribute ‘SafeConfigParser‘. Did you mean: ‘RawConfigP
在pip安装时,出现bug。
2024-02-22 15:20:45
6506
2
原创 【NCCL】入门(一):介绍和简单demo
NCCL(NVIDIA Collective Communications Library)是由NVIDIA开发的一种用于高性能GPU集群的通信库。它旨在提供高效的GPU间通信和协作能力,以加速分布式深度学习和其他GPU密集型计算任务。NCCL支持在多个GPU之间进行并行计算和通信。它可以在多个GPU之间实现高效的数据传输和同步,以利用集群中的所有GPU资源。被广泛用于分布式深度学习训练中,特别是在使用多个GPU进行模型训练时。它提供了一致的接口和通信原语,使不同GPU之间的数据交换和同步变得简单和高效。
2024-02-16 23:25:06
2421
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人