自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(460)
  • 资源 (19)
  • 问答 (1)
  • 收藏
  • 关注

原创 论文简读:Qwen3-VL Technical Report | Qwen3VL技术报告

demo:模型:或github:是Qwen系列中能力最强的,在多模态基准测试中表现优异。该模型,无缝整合文本、图像和视频。(2B/4B/8B/32B)和(30B-A3B/235B-A22B),以适应不同延迟-质量权衡。Qwen3-VL交付三大核心支柱:(i),在某些场景超越同类纯文本骨干模型;(ii),原生支持256K标记窗口,适用于文本和交错多模态输入,能忠实保留、检索及跨长文档/视频交叉引用;(iii)

2025-12-21 22:05:18 1015

原创 论文简读 InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

InternVL3.5,一个新型开源多模态模型系列,在泛化性、推理能力和效率方面显著优于前代。核心创新包括:级联强化学习(Cascade RL):结合离线RL(用于稳定训练)和在线RL(用于精细对齐),提升推理能力。视觉分辨率路由器(ViR):动态调整视觉标记分辨率,以可忽略的性能损失降低计算成本。解耦视觉-语言部署(DvD):将视觉编码器与语言模型分置于不同GPU,优化计算负载。这些技术使模型在整体性能上实现 +16.0% 的提升,推理速度达 4.05× 加速。最大模型 InternVL3.5-

2025-12-21 21:04:26 896

原创 论文简读:Qwen2.5-VL Technical Report

Qwen2.5-VL是Qwen视觉语言系列的旗舰模型,在基础能力与创新功能上均有显著提升。该模型具备增强的视觉识别、精确目标定位(支持边界框/点)、稳健的文档解析及长视频理解能力。核心技术创新包括:引入动态分辨率处理与绝对时间编码,支持原生感知空间尺度与时间动态,可处理任意尺寸图像和长达数小时的视频,并实现秒级事件定位。采用从头训练的原生动态分辨率ViT与窗口注意力(Window Attention),在保持原生分辨率的同时显著降低计算开销。关键性能表现:Qwen2.5-VL-72B在

2025-12-21 18:14:01 884

原创 论文简读:InternVL3| Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

介绍InternVL3(InternVL系列重大升级):实现原生多模态预训练(预训练阶段同步习得语言与多模态能力,规避传统后训练复杂优化难题)。核心技术:引入可变视觉位置编码(支持更长多模态上下文)、结合有监督微调与混合偏好优化等先进后训练策略、采用测试阶段缩放方案。性能表现:全品类多模态任务树立开源模型新标杆,保留强大语言能力;InternVL3-78B在MMMU基准测试中72.2,超越现有开源多模态大语言模型,显著缩小与闭源旗舰模型的性能差距。

2025-12-21 13:29:46 785

原创 wan2.1-2.2 官方提示词改写(prompt extend)模块

这里只分析中文结构的提示词。通过对于wan2.1与wan2.2两个版本,可以发现wan2.2的提示词质量更高,能体现I2V与T2V的任务差距。在T2V任务下,wan2.2 PE提示词会要求先输入构图成分,wan2.1则只要求宽泛的信息补充,这体现了。wan2.2在I2V任务下,对于提示词要求更加规范,核心在于主体精确描述,动作细节丰富,弱化对非动态物体的描述、增强对活体的运动属性描述(使得视频的动态质量大幅度提升)。同时,,wan2.1则是最后面。

2025-12-07 16:31:00 1152

原创 论文解读:wan-s2v | audio-driven cinematic video generation

当前最先进的(SOTA)音频驱动角色动画方法在简单的语音和歌唱的场景中表现出色。然而,。为了解决这一问题,Wan-S2V被提出。与现有方法相比,Wan-S2V在电影场景中实现了显著增强的表现力和保真度。与Hunyuan-Avatar和Omnihuman等前沿模型进行了基准测试,Wan-S2V显著优于这些现有解决方案。此外,Wan-S2V还支持在长视频生成和精确视频唇同步编辑中的应用。

2025-12-06 16:14:50 1124 1

原创 wan-animate 相关代码梳理

或梳理WanAnimate 的基本推理代码,理通其数据预处理流程与forward流程。

2025-11-23 22:57:08 882

原创 wan2.1 论文精读三 | 下游应用

​本博文一共介绍了wan2.1模型在图生视频(含首尾帧、视频续写)、视频编辑(VACE架构)、文生图、个性化视频(参考id生成视频,类vace架构)、摄像机运动控制、实时视频生成(世界模型)、音频生成领域的应用。关于图生视频领域,主要基于时序条件图像编码、mask控制。具体是将条件图像 I与沿时间轴填充零的帧连接起来,这些引导帧通过 Wan- VAE 压缩为条件潜在 zc,最终chanel为c;引入了一个二进制掩码 M ,其中 1 表示保留的帧,0 表示要生成的帧。最终实现基于mask 0,1标识位控

2025-11-22 21:45:35 805

原创 wan2.1 论文精读二 | 模型设计与加速

关于训练不管是VAE还是DIT都是进行了渐进式的训练,从图像到视频、从低分辨率到高分辨率;关于DIT还经过了高质量数据到后训练,这一阶段类似与LLM基模训练后的指令微调,主要是提升生成视频的视觉保真度和运动动态表现。在视频生成任务中,只有DiT模型会进行优化,而文本编码器和VAE编码器则保持冻结状态。关于性能优化训练过程中用到了全分片数据并行(FSDP)。对于激活值,通过上下文并行(CP)实现。设计了一种二维CP架构,融合了Ulysses和环形注意力的特性,类似于USP(方与赵,2024)。该设计

2025-11-02 20:40:21 1523

原创 wan2.1 论文精读一 | 导论与数据处理

基于本博文可以发现wan2.1在训练数据上分为预训练数据、后训练数据、caption模型训练数据。预训练数据。预训练数据 秉持三大核心原则:确保数据质量、保持多样性、大规模。先进行了基本维度的低质量(文本、美学、NSFW、水印、黑边、过曝、模糊、模糊、AI数据滤除)过滤。然后对数据进行聚类,进行类别的平衡。最后进行运动质量的分类,筛选出自然、完整且具有显著动态的视频,同时避免静态或抖动的运动。同时为了保证模型对于文字的生成能力,额外引入了文本数据集。后训练数据 核心目标是通过高质量数据提升生成视频

2025-11-01 17:51:19 1224 1

原创 从大模型中的chat_template了解jinja模板语法

基于macro 与 endmacro 闭合函数定义域;render_content为函数名。

2025-11-01 13:23:30 468

原创 论文阅读:Wan-Animate: UNIFIED CHARACTER ANIMATION AND REPLACEMENT WITH HOLISTIC REPLICATION

根据实际应用需求,我们通常采用1帧或5帧作为时间引导,分别对应1或5帧内容。完成各段落的去噪处理后,我们会删除对应参考latent和时间引导latent的部分,最终将剩余生成内容拼接成完整的长视频。

2025-10-26 23:00:45 922

原创 论文阅读:Res-Tuning: A Flexible and Efficient Tuning Paradigm via Unbinding Tuner from Backbone

1、Res-Tuning和Res-Tuning-Bypass在五组FGVC数据集上的少样本学习中【4.4节】,相较于其他参数高效和内存高效的调参策略均展现出显著优势。当训练样本较少时,Res-Tuning-Bypass在单样本或双样本场景下的表现与非内存高效方法相当甚至更优。2、Res-Tuning在领域偏移下展现出优异的鲁棒性【4.4节】。源域选用ImageNet-1K[11],目标域则涵盖ImageNet的四个变体:ImageNet-V2[62]、ImageNet-Sketch[73]、ImageNe

2025-10-19 22:16:00 650 1

原创 开源项目分析:wan2.1 VACE 关键设计与实现代码解读

VACE是阿里团队基于wan2.1设计的统一视频编辑模型,与wan2.1的文生视频、图生视频能力相比,VACE统一了多种视频编辑与生成软件的设计,将重绘、编辑、可控生成、帧参考生成和基于ID的视频合成等能力整合到一个统一的逻辑,称为视频条件单元,通过利用上下文适配器结构,使用时间维度和空间维度的正式表示将不同的任务概念注入到模型。如下图展示的能力有,参考图生视频、视频(pose、depth、gary、运动)生视频、mask编辑视频(物体替换、物体移除、视频扩展、视频时序延长);还可以实现组合任务如下图的

2025-10-18 20:34:12 865

原创 pytorch 52 基于SVD从全量训练模型中提取lora模型

基于微调后的模型得出增量矩阵,进行svd分解后可以得到Lora模型。本文以从wan1.3b t2v self_forcing_dmd模型中提取lora模型为例,可以用于wan t2v 1.3b、wan i2v 1.3b的推理加速。

2025-10-03 15:26:59 213

原创 DCM项目wan 1.3b T2V模型comfyui改造流程尝试

本文主要时真的DCM模型推理时,将sem模型与det模型通过lora参数的lora来进行区分,故尝试将其分开为2个模型。并尝试将其改造为标准WanVideo_comfy kj wan模型权重。最后搭建工作流实现模型推理,推理效果低于预期,应该是Scheduler没有能迁移到WanVideo_comfy 中。

2025-09-21 00:01:30 918

原创 论文阅读:DMD | Improved Distribution Matching Distillation for Fast Image Synthesis

发表时间:2024年5月24日分布匹配蒸馏(DMD)生成的一步生成器能够与教师模型在分布上保持一致,即。然而,。这些。这不仅在大规模文本到图像合成中计算成本高昂,还限制了学生模型的质量,使其与教师模型的原始采样路径过于紧密绑定。DMD2:在ImageNet-64×64数据集上FID分数达到1.28,在零样本COCO 2014数据集上FID分数为8.35。推理成本降低了500%×,超越了原始教师模型。

2025-09-07 21:53:03 1372

原创 论文翻译:VSA | Faster Video Diffusion with Trainable Sparse Attention

项目地址:https://github.com/hao-ai-lab/FastVideo模型地址:https://huggingface.co/FastVideo/FastWan2.1-T2V-1.3B-Diffusers/tree/main发表时间:2025.8.4 (v4版本)DiTs的扩展能力受限于其二次3D注意力机制,尽管大部分注意力权重集中在少量位置子集上。我们将这一发现转化为VSA,一种可训练且硬件高效的稀疏注意力机制,在训练和推理阶段均可替代全注意力机制。

2025-08-31 23:44:56 943

原创 论文阅读:VACE: All-in-One Video Creation and Editing

论文地址:https://arxiv.org/pdf/2503.07598开源时间:2025年3月11日代码地址:https://github.com/ali-vilab/VACE项目地址:https://ali-vilab.github.io/VACE-Page/DIT在生成高质量图像和视频方面展示了强大的能力和可扩展性。进一步追求生成和编辑任务的统一,在图像内容创建领域取得了显著进展。然而,由于在时间和空间动态上保持一致性的内在需求,实现视频合成的统一方法仍然具有挑战性。

2025-08-24 23:03:06 1125

原创 Wan2.1 模型文生视频、图生视频、首尾帧生视频推理代码分析

在文生视频模型中,一共有text_encoder(文本embed)、vae(图像编解码)、model(dit模型,扩散模型)三个类,与文生视频模型对比,图生视频仅仅是多了一个CLIPModel与文生视频模型对比,图生视频仅仅是多了一个CLIPModel。与图生视频的结构是一样的。

2025-08-18 04:00:00 2104

原创 论文项目:DCM代码阅读 | Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

本文(Dual-Expert Consistency Model, DCM):其中。DCM 在的同时,仍能,验证了双专家机制在视频扩散模型蒸馏中的有效性。

2025-08-17 16:56:08 1179

原创 基于comfyui实现 视频人物姿态检测与对齐

节点库3下载:https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite。节点库2下载:https://github.com/kijai/ComfyUI-WanVideoWrapper。节点库1下载:https://github.com/kijai/ComfyUI-KJNodes。链接:https://pan.quark.cn/s/03d67a07ce20。链接:https://pan.quark.cn/s/03d67a07ce20。

2025-08-17 05:00:00 362

原创 基于ComfyUI-Video-Matting实现视频人像抠图

下载插件源码,解压到 custom_nodes 目录下同样,下载VideoHelperSuite插件,解压到 custom_nodes 目录下然后,基于以下命令启动comfyui并在浏览器打开这里主要是定义NODE_CLASS_MAPPINGS、NODE_DISPLAY_NAME_MAPPINGS 两个变量,将自定义的RobustVideoMatting、BriaaiRembg节点注册到comfyui中RobustVideoMatting 节点定义代码如下""""""return {

2025-08-17 03:15:00 566

原创 windows下搭建comfyui环境,并实现文生图工作流

前置要求:conda环境搭建好,已经按照torch-cuda运行环境。

2025-08-16 11:57:29 613

原创 基于RobustVideoMatting(RVM)进行视频人像分割(torch、onnx版本)

这里需要下载项目源码与模型,注意是引入model目录下的模型定义。

2025-08-16 00:09:17 1244

原创 开源项目:OpenDMD项目关键代码解读,了解DMD的实现过程

最后,将优化目标设置为:latents - (pred_fake_latents - pred_real_latents) / weighting_factor,梯度为(pred_fake_latents - pred_real_latents) / weighting_factor。在setup_model.py中的setup_model函数中, real_model, fake_model, student_model三个模型拥有相同的参数与模型结构。同时,在reg_loss_weight>0时,

2025-08-07 08:01:29 1250

原创 论文阅读:DMD蒸馏 | One-step Diffusion with Distribution Matching Distillation

DMD的目的是训练一个单步生成器Gθ,但不包含时间条件,将随机噪声z映射为一张逼真的图像。其通过最小化两个损失的和来训练快速生成器:一个是分布匹配损失,其梯度更新可以表示为两个得分函数的差值;另一个是回归损失,它鼓励生成器在固定的噪声-图像对数据集上匹配基础模型输出的大尺度结构。

2025-08-03 23:43:26 1899 1

原创 python工具方法51 视频数据的扩充(翻转、resize、crop、re_fps)

视频数据的扩充(翻转、resize、crop、re_fps),可以基于opencv、ffmpeg、moviepy等库进行实现。本博文对比三个视频处理库的效率,发现在速度上opencv>ffmpeg>moviepy;在压缩率上,ffmpeg≈moviepy>opnecv。同时,在具体操作的耗时上,以opencv处理为准,处理3分钟fps为30的的720p视频,处理耗时上,翻转(20s)> re_fps(10s) > resize(8.5s) > crop(7.6s) .

2025-08-03 14:25:17 374

原创 论文阅读:Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

论文地址:https://arxiv.org/pdf/2506.08009发表时间:2025年6月9日我们提出了一种用于自回归视频扩散模型的新型训练范式——自强制(Self Forcing)。该方法解决了长期存在的“暴露偏差”问题:在进行学习,但在。与以往那些基于真实上下文帧对未来帧进行去噪的方法不同,自强制通过。这一策略使得我们能够通过视频层面的整体损失进行监督,从而直接评估整个生成序列的质量,而不仅仅依赖传统的逐帧目标函数。

2025-07-31 07:32:44 1938

原创 基于mnn架构在本地 c++运行llm与mllm模型

MNN(Mobile Neural Network)是阿里巴巴集团开源的轻量级深度学习推理框架,为移动端、服务器、个人电脑、嵌入式设备等多种设备提供高效的模型部署能力。MNN支持TensorFlow、Caffe、ONNX等主流模型格式,兼容CNN、RNN、GAN等多种网络结构。MNN具备轻量性、通用性、高性能和易用性特点,能在不依赖特定硬件NPU的情况下运行大型模型,支持模型量化和内存优化技术,能适应不同设备的算力和内存限制。

2025-07-27 22:07:04 1449

原创 开源项目分析:EDoRA | 了解如何基于peft实现EDoRA方法

论文地址:EDoRA是2025年新出的lora变种技术,在论文中分享了一种比lora精度高且显存占用低的方法。该方法目前还没有被peft库收录,为此对方法实现进行源码探索。以便于在其他项目中引入EDoRA技术。

2025-06-21 22:01:37 905

原创 最具备尝试价值的lora方法(10种LoRA模型的优劣对比)

分享了各种lora变种方法的大概情况,本文通过对LoRA、Delta-LoRA、VeRA、LoRA-drop、LoRA+、EDoRA等论文效果进行分类汇总,发现各种方法均在一定程度上表明效果比原始lora好,但在其他同类论文效果中又被证伪。这里针对提升lora精度与降低lora显存需求进行探索,基于各论文的数据,一共形成以下3点结论:1、在大幅度降低显存需求,且要保证精度(可能精度还能提升),可以尝试EDoRA方法(rank尽可能设置大一点);

2025-06-20 22:21:45 1276

原创 一文了解21年起2025的10种LoRA相关算法(LoRA、Delta-LoRA、VeRA、LoRA-drop、LoRA+、EDoRA)

在原有的参数旁,新增一个低秩分解的通路A、B,其中秩为r(r远小于n1、n2)。矩阵A进行高斯分布初始化,矩阵B进行全0初始化。额外有一个参数a,用于控制初始化参数的缩放。∆WxBA∆W_x=BA∆Wx​BA按α/r进行缩放,其中α是关于r的常数。在使用Adam优化器时,如果我们对初始化进行了适当缩放,调整α大致等同于调整学习率。该方法在每层LoRA结构中冻结降维投影权重A,仅更新升维投影权重B。这一设计确保模型权重变化始终处于低秩空间,同时消除了存储全秩输入激活值的必要性。

2025-06-16 23:33:08 1601

原创 开源项目:optimum-quanto库介绍

项目地址:https://github.com/huggingface/optimum-quanto官网介绍:https://huggingface.co/blog/quanto-introduction量化是一种技术,通过使用低精度数据类型(如 8 位整数 (int8))而不是通常的 32 位浮点 (float32) 来表示深度学习模型的权重和激活,从而降低评估深度学习模型的计算和内存成本。减少位数意味着生成的模型需要更少的内存存储,这对于在消费类设备上部署大型语言模型至关重要。

2025-05-04 19:45:05 1287

原创 python 工具方法50 高效的将onnxruntime推理代码修改为tensorrt推理代码

onnxruntime推理时可以直接以numpy数组为输入,可以便捷的支持多输入多输出模型。但需要修改为python-tensorrt推理时,需要补充上cuda操作,完成cpu变量与cuda变量的通信、输出输出的内存分配。为此对python-tensorrt推理代码进行共性化提取,让您可以像python-onnxruntime一样使用tensorrt推理,仅需替换2行代码即可(模型初始化代码,onnx.run调用代码)。前置条件:安装py-cuda库、tensorrt-python 10.x推理环境。

2025-04-19 21:12:02 200

原创 pytorch 51 GroundingDINO模型导出tensorrt并使用c++进行部署,53ms一张图

博主基于https://github.com/hpc203/GroundingDINO-onnxrun项目分享的onnx c++推理代码,修改为GroundingDINO模型的tensorrt推理代码。对于600x400的输入,在3060显卡下,cuda 12.1,TensorRT-10.4.0,window环境下53ms处理完一张图片。

2025-04-19 20:42:08 954

原创 基于deepspeed 官网api梳理出模型并行的调用案例

deepspeed 是一个实现模型并行的开源框架,但网上很难搜索到基于ds实现训练自己模型的代码。为此对deepspeed 官网api与豆包模型进行拷打,整理出可用的demo。。 ZeRO-1:减少优化器状态的内存占用。ZeRO-2:进一步减少梯度的内存占用。ZeRO-3:完全消除冗余,将模型参数也进行分区,显著减少内存占用,但通信开销增加。

2025-04-14 04:15:00 6095

原创 深度学习中多机训练概念下的DP与DDP

`DDP模式下对batchnorm的训练有影响,因为DDP模式下每个卡拿到的都是局部数据,故需要将batchnorm替换为syncbatchnorm,在bn层的forward前需要将全局多机所有显卡计算出的均值方差数据进行同步。`这里需要注意的是,`DP/DDP可以基于数据划分的模式提升batchsize,达到单机单卡下梯度累积训练的效果,但解决不了显存不够用的情况(单机下batch为1无法训练的模型,DDP模式下也无法训练)`。

2025-04-13 22:38:13 1370

原创 开源项目介绍:GroundingDINO-TensorRT-and-ONNX-Inference

开源时间:2024.11.x项目分享将GroundingDINO中模型导出onnx后python推理、onnx转trt模型、trt模型python推理代码。这里导出的模型与hpc203/GroundingDINO-onnxrun 导出的onnx模型是完全通用的。基于这里提供的trt模型python推理代码,可以实习c++ 下tensorrt推理GroundingDINO模型。

2025-04-13 22:14:55 1726 5

原创 深度学习中模型量化那些事

在深度学习中模型量化可以分为3块知识点,数据类型、常规模型量化与大模型量化。本文主要是对这3块知识点进行浅要的介绍。其中数据类型是模型量化的基本点。常规模型量化是指对普通小模型的量化实现,通常止步于int8的量化,绝大部分推理引擎都支持该能力。而大模型的量化,需要再cuda层次进行能力的扩展,需要特殊的框架支持。

2025-04-06 21:51:58 1652 5

opencv4.5.3+opencv-contrib+CUDA

参考知乎教程https://zhuanlan.zhihu.com/p/354838274所实现的opencv4.5.3+opencv_contrib+CUDA11.1,在win10下用vs2019编译,显卡为3060,CUDA_ARCH_BIN设置为7.0;7.5;8.0;8.6。

2022-02-18

基于c#实现的webapi调用软件

基于c#实现的webapi调用软件,用于请求web服务,尤其是通过aistudio平台部署的深度学习模型。如果您的自己的webapi接口返回的也是json格式的信息,也可以使用本软件进行请求调用。只是在请求服务前,一定要点击软件界面加密,将原始的url信息转化为用户不可读的字符串,然后再点击测试

2022-09-01

Wood Species Dataset-all.zip

Wood Species Dataset数据集有12种木材8千多个图像组成,其中有三种软木树种和九种阔叶树种,图像分为3类,分别是每种木材的横切面图片、弦切面图片和径切面图片。使用数据集时请务必按数据作者要求引用文献

2020-07-15

EditThisCookie.crx cookie编辑导入导出利器

支持多种导出格式,其导出的cookie支持在curl中使用(导出格式选择Netscape HTTP Cookie File)。

2022-06-29

win10下用vs2019编译好的curl 64位库 版本7.84.0

在win10用cmake3.22与vs2019编译好的curl库,版本号为7.84.0(当下最新版,支持SLL)。库文件已经整理成了lib、include的结构,其中还内置curl.exe. curl是一个利用URL语法在命令行下工作的文件传输工具,支持很多种http请求操作,详情可以参考Linux curl命令最全详解_Angel_CG的博客-CSDN博客_curl命令。curl现在在linux与win10都是有内置的,在命令行中可以直接使用curl指令。

2022-06-28

python释放cuda缓存库

博主自行实现的动态链接库,通过python导入后可以实现释放显存,与ai框架无关。支持pytorch、tensorflow、onnxruntime等cuda运行环境。调用dll.reset_cuda()即可释放显存

2022-06-21

windows下GDAL322的库

从GDAL322安装包中抽取出的库,避免了的安装和下载多个包的过程。包含lib、bin、include三个目录。将lib的路径添加到系统环境变量中就算是配置好了GDAL322。

2022-06-10

paddle.hub迁移学习-图像分类案例

基于paddle2.0内置的hub库所实现的迁移学习代码,包含4个文件,分别涉及模型、数据、训练和测试。该代码具体的使用方式请参考https://blog.csdn.net/a486259/article/details/123140942

2022-02-25

基于paddle2实现对paddlehub中的静态图的训练

基于paddle2实现了对paddlehub2中的静态图的训练,可以使用paddle.vision.transforms实现训练模型时的数据增强。避免了paddlehub1.x下无法在训练过程中增强数据的缺陷。基于此,还可以实现对paddlehub内置模型的知识蒸馏。如果想免费试用,请浏览https://blog.csdn.net/a486259/article/details/123191622,复制代码保存为文件即可。

2022-02-28

cryptoJs加密解密工具

cryptoJs加密解密工具,并集成EncryptAes、DecryptAes两个方法,require(util.js)即可用。参数以json方式传递

2018-07-20

手写数字字母数据集[0-9,a-z,A-Z]

预处理过的EnglishHnd手写数字字母数据集,文件名已经改成数字、字母(限于windows10下不区分大小写,大写字母的都是双字母,如AA,BB),尺寸被裁剪缩放到28*28,与minist数据集完美兼容。

2019-04-10

labelme-4.5.7.exe

已打包好的最新版labelme-4.5.7,可以单独运行无需配置python环境。可以绘制多边形、圆形、线与点。因为不会压缩,所以文件大小有270m

2021-03-25

目标检测 数据扩充增强工具

用于目标检测的数据增强工具,通过读取voc格式的数据可以对图像和相应的box进行缩放、平移、镜像、旋转、resize和更改颜色空间。通过对扩充方法的随机组合,可以将一个带标注的图像扩充成100幅。资源使用方面有问题请查看https://blog.csdn.net/a486259/article/details/121644786

2021-06-15

RDPWrap-v1.6.2.zip

用于开启win10家庭版的远程桌面,其中包含各个版本的ini文件

2021-07-22

keras库文件,在loss和metrics库文件中添加rmse方法

在keras的loss库中添加rmse方法,成功使模型能正常使用rmse方法。在metrics.py文件上添加rmse方法后可以使用model.compile(loss='mse',weighted_metrics=['rmse'])方法,可以在其他loss的条件下观测rmse的变化

2020-08-20

ILSpy反编译与ConfuserEx混淆工具.zip

通用的代码混淆工具ConfuserEx和代码反编译工具ILSpy,适用于windows桌面exe软件。

2020-05-29

flowers数据集.rar

处理好的flowers17数据集,包含训练集、验证集和测试集,和相应的数据集分类代码。

2021-11-27

minist手写数字数据集(含代码)

minist手写数字数据集(含代码,案例有softmax分类、knn分类和神经网络分类),代码简洁易懂,可以当做练手资料

2018-11-28

图像批处理方法-图像空白裁剪、灰度化、缩放

按照目录对图像进行灰度化、缩放(比例默认为1/3)、空白处裁剪(裁剪掉图片多余的空白) =图像周边空白裁剪:按行和列统计图像四周的空白率,空白率过高的行和列将被裁剪掉(方法中设置为0.8,以灰度值大于0,9表示空白像素,可以按需更改)

2020-10-04

python工具方法 HristoryAvery

python工具方法 HristoryAvery方法在时序预测上的实现与使用,包含fit、predict、split_data三个方法。split_data用于划分数据集

2020-10-04

视频人物姿态检测工作流

基于comfyui实现 视频人物姿态检测工作流

2025-08-16

参考图与视频人物姿态对齐工作流

基于comfyui实现 参考图与视频人物姿态对齐工作流

2025-08-16

flash-attn-2.6.3-cp38-cp38-win-amd64.whl

win10下cuda12.1 +troch2.4.1+vs2022+python3.8环境下编译的flash-attn库

2024-10-03

自己训练的superpoint与superglue模型

使用自己训练的superpoint与superglue模型进行图像配准(https://hpg123.blog.csdn.net/article/details/137381647) 博客中对应的模型与图片。放置对SuperGluePretrainedNetwork目录下,替换掉对应的文件即可使用

2024-04-12

使用FastDeploy 进行(图像分类、目标检测、语义分割、文本检测-orc)python部署

本资源整理了(图像分类、目标检测、语义分割、文本检测|orc)的FastDeploy-python部署案例,里面包含模型与对应的数据,下载资源后,安装FastDeploy即可使用。 FastDeploy是一款全场景、易用灵活、极致高效的AI推理部署工具, 支持云边端部署。提供超过 160+ Text,Vision, Speech和跨模态模型开箱即用的部署体验,并实现端到端的推理性能优化。包括 物体检测、字符识别(OCR)、人脸、人像扣图、多目标跟踪系统、NLP、Stable Diffusion文图生成、TTS 等几十种任务场景,满足开发者多场景、多硬件、多平台的产业部署需求。

2024-01-25

AOT-GAN-for-Inpainting项目中pt模型转化的onnx模型

AOT-GAN-for-Inpainting是一个开源的图像修复项目,其对 Places2 数据集的效果表明,我们的模型在 FID 方面明显优于最先进的模型,相对改进了 1.8%。一项包括 365 多名受试者的用户研究进一步验证了 AOT-GAN 的优越性。我们进一步评估了所提出的AOT-GAN在实际应用中的应用,例如,logo去除、面部修复和物体移除。结果表明,我们的模型在现实的广泛数据数据中取得了良好的效果。在论文中表述了一共在3个数据集上进行训练,但仅发布了两个预训练模型,关于logo移除的模型或许设计商业因素未公开。 本资源包含 CELEBA-HQ 与 Places2 两个数据集的onnx模型 https://hpg123.blog.csdn.net/article/details/135561206

2024-01-13

paddle-infer模型(包含ppyoloe-m、resnet50、segformerb1)

paddle_infer模型(包含ppyoloe_m_plus、resnet50、segformerb1的预训练模型),属于https://hpg123.blog.csdn.net/article/details/135229800中的模型、数据部分。含imagenet1000.txt类别信息,object365.txt类别信息

2023-12-26

win10上cuda12.1+tensorrt8.6+vs2019环境下编译onnxruntime1.17

onnxruntime官方在cuda12出来一年后都没有发布支持cuda12的onnxruntime版本,故此博主在win10上cuda12.1+tensorrt8.6+vs2019+py38环境下自行编译onnxruntime-gpu 1.17版本。本资源包,有onnxruntime_gpu-1.17.0-cp38-cp38-win_amd64.whl文件可以用于python的安装使用,还包含include、lib、bin文件支持c++编程使用。

2023-12-25

使用ROPNet项目在modelnet40数据集上训练的模型

具体包括:min_loss.pth、min_rot_error.pth两个模型文件https://github.com/zhulf0804/ROPNet项目提供了一个配准效果良好的点云模型,但是并没有发布预训练模型。故此,博主基于项目作者公布的代码,使用默认参数进行训练,约训练了450个epoch(完整epoch为600个)。所得到的模型精度与论文有轻微差异,但仍然能保证领先的精度。 训练loss: Loss: 0.1087, Error R: 2.2862, Error t: 0.0218, anisotropic R(mse, mae): 2.6079, 1.1766, anisotropic t(mse, mae): 0.0224, 0.0103 测试效果: Error R error: 1.6421 Error t error: 0.0171 anisotropic mse R error: 1.9071 anisotropic mae R error: 0.8711 anisotropic mse t error : 0.0177 anisotropic mae t err

2023-12-03

16位tif影像转jpg软件(win10可用,无任何依赖)

16位tif影像转jpg软件(win10可用,无任何依赖),对于16位tif影像转jpg,实现了3种转换函数,分别为normalization_img、min_max_normalization_img、cut_normalization_img。其中cut_normalization_img函数可以滤除掉tiff影像中的异常值,可以在格式转换时增强图像效果的稳定性。 软件由exe文件和ui文件组成,可以按照个人需求修改ui界面设计,修改后保存即可生效,无需更新软件。 同时也支持对jpg、png、bmp图像进行上述操作。 支持将图片拖入软件界面,也支持通过按钮选择图片。 软件具体实现介绍可以参考:https://hpg123.blog.csdn.net/article/details/131603554

2023-07-07

基于pyqt5所实现的16U tiff影像转8U影像软件源码

现在大部分图像软件都支持tiff影像的浏览,但都是仅限于8位的影像,对应CV16U类型的tiff影像并不支持(这需要专业的gis软件才可进行操作)。为了便捷操作,故此基于pyqt5+opencv实现16位tif影像转jpg的软件。由于博主还是不太喜欢将ui文件转换为py文件再去构建界面,直接加载ui文件构建界面可以节省一个中间步骤,且这可以在软件发布后直接修改ui文件达到快速更新软件的效果。 将16U的数据转换为8U有两种最简单的方式,即为归一化,具体如normalization_img函数代码所示,先将数据的值域压缩到0 ~ 1,然后再调整到 0 ~ 255。这种转换可能会存在某种问题,例如数据的整体值偏高,这样转化后就看不到差异了,故此又设计了min_max_normalization_img函数。先将数据的最小值调整为0,然后再进行归一化。 对于某些特殊的行业数据,可能存在较多的噪声,其最大值和最小值并不能真实反映数据的情况(可能为传感器故障),从而需要对数据值域的频率进行统计,找到噪声的阈值(最大值阈值、最小值阈值),将大于最大值阈值的数值修改为最大值阈值,将小于最小值阈值

2023-07-07

pyqt5的基本使用demo

对应的代码讲解在:https://hpg123.blog.csdn.net/article/details/131564563?spm=1001.2014.3001.5502,博文记录了pyqt5使用记录涉及pyqt界面控件的基本介绍,使用designer设计界面ui,并将其转化为py代码。关于界面主要实现radioButton的互斥选中事件、comboBox的选中事件(依据list添加item)、pushButton的单击事件、槽函数自动绑定、图片的拖入显示。 代码下载后,安装好qt环境既可使用,包含原始的ui文件,可以按照个人需求修改代码实现。

2023-07-06

ARM架构下ubuntu18.04编译好的opencv3.4.15(开箱即用)

ARM架构下ubuntu18.04编译好的opencv3.4.15(python版为通过编译),内置CMakeLists.txt模板文件,可以通过cmake的 find_package(OpenCV REQUIRED)直接配置opencv库。 编译时的系统信息如下: root@HelperBox:~# uname -a Linux HelperBox1.t507 4.9.170 #42 SMP PREEMPT Sat Nov 5 18:40:25 CST 2022 aarch64 aarch64 aarch64 GNU/Linux root@HelperBox:~# lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 18.04.4 LTS Release: 18.04 Codename: bionic

2023-07-02

基于c++实现的文件加密解密代码

基于c++实现的文件加密解密代码,支持将二进制文件读取为char数组,然后根据自定义code对数据进行局部取反操作、局部倒序操作、局部滑动操作。 取反操作:将数据进行取反;解密操作也是取反操作;以单个char为操作单元 倒序操作:将数组的顺序进行翻转;解密操作也是倒序操作;以char数组为操作单元 滑动操作:将数组首位相连,进行一定的转动;解密操作也是滑动操作;以char数组为操作单元; 以头文件的方式实现,除标准std库外,不依赖任何第三方库;include到个人项目中即可使用。

2023-04-08

C++下web框架corw的完全使用手册(实现中文支持)

corw是一个开源、轻量化的c++web库,在使用上与python的flask是类似的。本文档为corw的完整使用文档,含项目配置(基于cmakelist)、路由绑定、返回数据(json、文本、response对象、静态资源、模板文件)、接口请求处理(REST请求,url参数绑定、json请求、GET参数和POST参数)和各种高级操作(Cookie操作、Session操作、文件上传操作、文件下载操作、websocket操作、自定义loghandler)。此外,还对各类参数请求、结果返回过程中对中文的支持(如get参数、post参数、url参数、json结果中中文参数的正确解读)

2023-02-20

2023-02-14

win10下vs2019编译的opencv470+opencv-contrib(python pyd文件、c++包和编译缓存)

win10下vs2019编译的opencv470+opencv_contrib,包含opencv python版本的pyd文件和自行编译opencv470的.cache文件,各位可以下载.cache文件自己编译opencv470。所编译的opencv470中的lib和dll不是一个单独的文件,博主使用lib.exe将所有的lib文件合并为了opencv_world470.lib(链接器附加依赖性只需要opencv_world470.lib一个即可),但是dll文件没有合并(dll文件路径添加到环境变量path中即可)

2022-12-31

基于vs2019实现的绘图软件(矩形、多边形绘制)

实现了画笔(可以设置大小和颜色)、橡皮擦(可以设置大小),实现了绘制矩形(可以设置填充和不填充、可以设置颜色)、绘制多边形(可以设置填充和不填充、可以设置颜色)等基本功能。此外,还实现了导入底图的功能。

2022-10-18

60个labelme标注的船只数据

用于做格式转换的demo数据,可以支持目标检测模型的训练与测试

2022-10-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除