资料加载中-CSDN博客

原创【AIGC】即梦omnihuaman-api调用实现

摘要：该项目是基于火山引擎即梦API的数字人视频生成Demo，支持图片+音频驱动生成数字人视频。核心功能包括AK/SK在线填写、图片/音频上传、主体检测与Mask选择、Prompt控制、视频生成与下载等。运行环境要求Python≥3.9和可公网访问的静态文件服务。项目提供了完整的配置指南和使用流程，适用于技术演示、API调用示例和二次开发基础。注意事项包括使用清晰正脸图像、控制音频时长等。项目开源地址已提供，并声明仅为API使用示例，效果以官方为准。

2025-12-18 10:15:30 2429 2

原创【AIGC】RealVideo：一种基于自回归扩散视频生成的实时流媒体对话系统

在实时流视频生成中，参考图像中的标记是理想的接收器标记，因为它们能够引导模型在整个生成过程中与参考图像保持一致。幸运的是，由于 RoPE 是一种相对位置编码，我们可以通过简单地调整目标标记的位置索引，确保滑动窗口注意力机制下推理和训练之间的严格对齐。幸运的是，在音频驱动的视频生成中，这种限制通常是可以接受的，原因有二：(i) 音频流严格限制了每一帧的内容；在常微分方程蒸馏之后，模型将进一步训练以匹配教师模型，方法是最小化“真实分数模型”和“虚假分数模型”概率密度之间的梯度差异，如[3][4]所述。

2025-12-15 19:49:48 744

原创【AIGC】SCAIL：通过对 3D 一致姿态表示进行上下文学习，实现工作室级角色动画

SCAIL：通过对 3D 一致姿态表示进行上下文学习，实现工作室级角色动画

2025-12-15 19:13:09 702

原创【AIGC】comfyui解决qwen-image-edit像素偏移方案

链接: https://pan.baidu.com/s/105tPyZyeyPe8LGiwbed-kQ 提取码: jd7w。在1024像素下规范填充输入图像，在生成图像后，再根据mask重新缩放到理想尺寸。基于qwen-image-edit对1024像素值没有偏移情况。

2025-12-10 19:49:53 341

原创【BUG】npm ERR! SyntaxError: Unexpected token ‘?‘

BUG

2025-11-25 20:09:32 131

原创【AIGC】HPS v2：评估人类对文本到图像合成偏好的可靠基准

HPDv2是目前最大的人类图像偏好数据集，包含79.8万组人工标注的图像对比数据，覆盖9个文本到图像生成模型和COCO真实图像，有效解决了先前数据集在图像来源和文本提示方面的偏差问题。研究者采用ChatGPT优化提示词表达，并使用基于OpenClip预训练的ViT-H/14模型进行评估，通过冻结部分层和贝叶斯优化超参数的方式，在128批量大小和3.3e-6学习率等设定下训练4000步。该数据集为评估模型泛化能力提供了更全面的基准。

2025-10-31 17:52:39 1127

原创解决下载huggingface模型报错

【代码】解决下载huggingface模型报错。

2025-10-31 11:36:51 497

原创音视频同步实例

本文介绍了音视频同步中的关键参数设置：音频采用20ms包时长(AUDIO_PTIME)和16kHz采样率(SAMPLE_RATE)，视频采用90kHz时钟频率(VIDEO_CLOCK_RATE)和25fps帧率(VIDEO_PTIME)。通过时间基(VIDEO_TIME_BASE和AUDIO_TIME_BASE)将时间戳转换为统一时间单位，实现音视频同步播放。文章还提供了Python示例代码，展示如何通过计算理论播放时间和实际时间的差值来调整视频播放速度，确保音画同步。这些参数设置和同步逻辑是实时音视频应用

2025-10-28 18:10:12 206

原创 MajicTryOn(基于wanvideo的虚拟试穿项目)

majic_tryon，一个基于视频扩散模型的虚拟试穿项目

2025-06-06 23:17:00 518

原创【视频生成】基于wanvideo的控制型lora

wanvideo controlnet lora实现控制自由

2025-03-23 10:53:20 1458

原创【AIGC】MIMO：基于空间分解建模的可控人物视频合成

在本文中，我们提出了一种新的可控制字符视频合成框架MIMO，它允许用户通过简单的属性输入进行灵活的控制。该方法引入了一种新的生成体系结构，将视频片段分解为不同的空间分量，并嵌入其潜在编码作为解码器重构视频片段的条件。实验结果表明我们的方法不仅可以实现灵活的角色，运动和场景控制，而且还可以扩展到任意角色，通用性到新颖的3D运动，并适用于交互式场景。我们还认为，我们的解决方案考虑了固有的3D性质，并自动将2D视频编码为分层空间组件，可以启发未来3D感知视频合成的研究。

2024-10-19 23:26:48 1198

原创【AIGC】Kolors:快手开源的文生图大模型

Kolors:快手开源的文生图大模型

2024-09-17 16:18:49 1755 1

原创【AIGC】CFG:基于扩散模型分类器差异引导

CFG:基于扩散模型分类器差异引导

2024-09-17 00:16:56 1619

原创【AIGC】InstructPixPix:基于文本引导的图像编辑技术

InstructPixPix:基于文本引导的图像编辑技术

2024-09-09 23:50:49 2379 1

原创【AIGC数字人】EchoMimic:基于可编辑关键点条件的类人音频驱动肖像动画

EchoMimic:基于可编辑地标条件的类人音频驱动肖像动画

2024-09-08 17:21:05 1998 1

原创【数字人】Facevid2vid:用于视频会议的一次性自由视图说话头合成

Facevid2vid:用于视频会议的一次性自由视图说话头合成

2024-09-04 01:51:39 1504

原创【AIGC】MimicMotion：姿态引导的高质量人体运动视频生成技术

MimicMotion：姿态引导的高质量人体运动视频生成技术

2024-09-01 13:04:18 2962

原创【AIGC】DiffuToon:稳定的视频卡通化技术方案

diffutoon稳定的视频卡通化技术方案

2024-07-03 20:55:37 983

原创【AIGC】PULID:对比对齐的ID定制化技术

Pulid对比对齐的ID定制化技术

2024-06-04 22:29:11 1684

原创【BUG】使用accelerator运行分布式代码时卡住：Multi GPU process stuck

使用accelerator运行分布式代码时卡住：Multi GPU process stuck

2024-06-04 16:16:12 3085

原创【AIGC】FaceChain:发挥生成式内容的无限可能性

FaceChaine提供了一系列的生成方案，通过少量的图像输入，就能生成逼真的个性化肖像。它是一个个性化肖像生成框架，包含丰富的人脸感知相关的模型，例如人脸检测，深度人脸向量提取，人脸属性分析等等。输入主要的肖像生成功能，社区还包括虚拟试穿，2D数字人功能最近的一些工作都聚焦于使用少量的图像再基础模型的基础上去做微调，让微调网络记住某个特定人物身份信息。这样就可以结合提示词在大模型的基础上得到更多新样式的高保真图像。目前人物为主的个性化肖像文生图方法主要分两种：1.基于lora,2基于人脸身份。

2024-06-01 23:51:41 1369 3

原创【AIGC-数字人】V-Express：渐进式训练的数字人视频生成技术

在人像视频生成领域，使用单张图像生成人像视频已经变得越来越普遍。一种常见的方法涉及利用生成模型来增强适配器以实现受控生成。然而，控制信号的强度可能会有所不同，包括文本、音频、图像参考、姿态、深度图等。其中，较弱的条件往往由于较强条件的干扰而难以发挥作用，这对平衡这些条件提出了挑战。在我们关于肖像视频生成的工作中，我们发现音频信号特别弱，常常被姿势和原始图像等更强的信号所掩盖。然而，用弱信号直接训练往往会导致收敛困难。

2024-06-01 13:21:16 1246

原创【环境搭建】ubuntu工作站搭建全流程（显卡4090）

ubuntu工作站搭建

2024-04-09 22:11:55 3066

原创【实用工具】使用飞书机器人监控工程日志

将error，info，debug放在三个机器人上，平时可以查看，等到真正使用时，把info和debug界别日志去掉，避免发送日志影响性能。1.创建一个飞书群聊，设置-->群机器人-->添加机器人-->自定义机器人-->修改机器人名称-->添加。日志信息将包括日期、执行程序的进程和ip，最后加上日志信息。2.复制webhook地址。3.编写日志请求代码。

2024-04-09 22:05:52 1446

原创【BUG】无法发起与 typora.io:443 (2a03:2880:f10c:83:face:b00c:0:25de) 的连接 - connect (101: 网络不可达)

1. 取消 https://typora.io/linux ./ InRelease。目录中的相关文件，并将对应的软件源的行注释掉，或者将其删除。2. 要取消对特定软件源的更新，您可以编辑。

2024-04-08 20:19:26 1815

原创【pytorch函数】gather函数

输入张量是一个2行2列的张量，0表示以列为单位进行索引，index_tensor表示对应列上的索引值，比如在第0列上取1,1位置上的值填充到原来的位置，第1列上取1,1位置上的值填充到原来的位置，也就是说只能在各自列或者各自行上的相应位置的元素替换为该列或者该行任意位置的元素。

2024-04-08 20:16:14 942 1

原创【BUG】ubuntu更新源时报错：dl.google.com:443 (172.217.24.78)，连接超时

修改/etc/hosts内容。

2024-03-21 09:59:44 721

原创【AIGC】Diffusers:加载管道、模型和调度程序

Diffusers加载管道、模型和调度程序

2024-01-28 23:49:56 6025 2

原创【AIGC】Diffusers:训练扩散模型

利用Diffusers做扩散模型训练

2024-01-25 23:41:46 2796 2

原创【AIGC】Diffusers：AutoPipeline自动化扩散生图管道

AutoPipeline超简单的实现生成自己想要的图像的管道

2024-01-25 22:24:04 2053

原创【AIGC】Diffusers:扩散模型的开发手册说明2

扩散器被设计成一个用户友好且灵活的工具箱，用于构建适合您用例的扩散系统。工具箱的核心是模型和调度程序。然而 DiffusionPipeline 为方便起见将这些组件捆绑在一起，但您也可以解包管道并分别使用模型和调度程序来创建新的扩散系统。解构 Stable Diffusion 流水线稳定扩散是一种文本到图像的潜在扩散模型。它被称为潜在扩散模型，因为它使用图像的低维表示而不是实际的像素空间，这使得它更节省内存。编码器将图像压缩为较小的表示形式，解码器将压缩的表示形式转换回图像。对于文本到图像模型，需要。

2024-01-24 23:46:08 1865 1

原创【AIGC】Diffusers:扩散模型的开发手册说明1

Diffusers:扩散模型开发者的福音

2024-01-24 22:56:53 1459

原创【AIGC】CLIP

CLIP多模态模型

2024-01-23 23:53:17 1824 1

原创【AIGC】photomaker:基于多个图像ID嵌入的定制化逼真人物照片

通过一张图或者多张图像输入，该文方法可以记住人物ID,改变属性、改变风格和混合人物ID的效果。效果SOTA。类似的工作有ipadapter,lora,Dreambooth.这些方法不是消耗算例和时间就是效果不明显，不具有泛化性。最近的一些文生图工作在结合文本提示词的情况下合成真人图片已经取得了巨大的进展。这些工作不能同时满足高效，高的ID置信度和文本控制的自由性。我们的工作PhotoMaker是一个有效的个性化文生图生成方法。可以输入任意张ID图像然后通过堆叠来保留ID信息。

2024-01-23 23:32:03 2157

原创【代码实战】从0到1实现transformer

在本例中，值和键是编码器的输出，而查询是自注意力模型的输出。在高层次上，它基于编码器对源句子上下文的理解，并将解码器输入的部分句子作为查询（可以为空），以预测如何完成句子。但是，如果将它们设置为小于总词汇量的值（例如这种情况），则会限制矢量化器仅学习更频繁的单词，并使生僻单词成为词汇表外（OOV）。您将看到除了嵌入和位置编码之外，您还有编码器（图的左半部分）和解码器（图的右半部分）。为了理解单词的含义，从而量化两个单词之间的相互关系，您将使用单词嵌入技术。因此，在创建此层时，您可以为其创建一个常量张量。

2024-01-21 23:29:51 1251

原创【AI理论知识】EM算法

期望最大化算法（Expectation-Maximization，EM算法）是一种。

2024-01-21 23:01:19 794

原创【AI理论知识】高斯混合模型

高斯混合模型（GMM）是单一高斯概率密度函数的延伸，就是用多个高斯概率密度函数（正态分布曲线）精确地量化变量分布，是将变量分布分解为若干基于高斯概率密度函数（正态分布曲线）分布的统计模型。GMM是一种常用的聚类算法，一般使用期望最大算法（Expectation Maximization，EM）进行估计。

2024-01-21 22:52:26 1463

原创【pytorch框架】使用 PyTorch 进行深度学习

PyTorch 是由 Facebook 创建和发布的用于深度学习计算的 Python 库。它起源于早期的库 Torch 7，但完全重写。它是两个最受欢迎的深度学习库之一。PyTorch 是一个完整的库，能够训练深度学习模型以及在推理模式下运行模型，并支持使用 GPU 进行更快的训练和推理。这是一个我们不能忽视的平台。您可以使用pip安装 PyTorch。在撰写本文时，PyTorch 的最新版本是 2.0。每个平台（包括 Windows、Linux 和 macOS）都有预构建的 PyTorch。

2024-01-21 15:34:53 3585

原创【AI知识片段】Transformer模型中的位置编码

位置编码描述序列中实体的位置或位置，以便为每个位置分配唯一的表示形式。单个数字（如索引值）不用于表示项目在转换器模型中的位置的原因有很多。对于长序列，索引的量级可能会变大。如果将索引值归一化为介于 0 和 1 之间，则可能会对可变长度序列产生问题，因为它们的归一化方式会有所不同。转换器使用智能位置编码方案，其中每个位置/索引都映射到一个向量。因此，位置编码层的输出是一个矩阵，其中矩阵的每一行表示序列的一个编码对象，该序列与其位置信息相加。仅对位置信息进行编码的矩阵示例如下图所示。

2024-01-21 14:59:10 2016

原创【shell编程入门】stable diffusion webui的webui.sh脚本解析

通过webui.sh，我们可以在linux系统下安装虚拟环境，并启动stable diffuson webui。

2024-01-15 23:54:51 1287

ltx2.3网络结构图

ltx2.3网络结构图详解，svg矢量高清图

2026-04-08

stable-diffusion原理理解资源

2024-06-02

常用数据集集锦.zip

1.mnist数据集：整个数据集由来自 250 个不同人手写的数字构成，其中 50%是高中学生, 50% 来自人口普查局的工作人员。训练集：60000，测试集：10000 2.imdb数据集：这数据集包含了50000条偏向明显的评论，其中25000条作为训练集，25000作为测试集。label为pos(positive)和neg(negative)。 3.boston_housing数据集：数据来自1970年代，波斯顿周边地区的房价，是用于机器学习的经典数据集。该数据集很小，共计506条数据，分为404个训练样本和102个测试样本。 4.cifar-10数据集：CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像。有50000个训练图像和10000个测试图像。数据集分为五个训练批次和一个测试批次，每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序包含剩余图像，但一些训练批次可能包含来自一个类别的图像比另一个更多。总体来说，五个训练集之和包含来自每个类的正好5000张图像。

2020-05-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人