- 博客(131)
- 资源 (1)
- 收藏
- 关注
原创 【AIGC】即梦omnihuaman-api调用实现
摘要:该项目是基于火山引擎即梦API的数字人视频生成Demo,支持图片+音频驱动生成数字人视频。核心功能包括AK/SK在线填写、图片/音频上传、主体检测与Mask选择、Prompt控制、视频生成与下载等。运行环境要求Python≥3.9和可公网访问的静态文件服务。项目提供了完整的配置指南和使用流程,适用于技术演示、API调用示例和二次开发基础。注意事项包括使用清晰正脸图像、控制音频时长等。项目开源地址已提供,并声明仅为API使用示例,效果以官方为准。
2025-12-18 10:15:30
1124
2
原创 【AIGC】RealVideo:一种基于自回归扩散视频生成的实时流媒体对话系统
在实时流视频生成中,参考图像中的标记是理想的接收器标记,因为它们能够引导模型在整个生成过程中与参考图像保持一致。幸运的是,由于 RoPE 是一种相对位置编码,我们可以通过简单地调整目标标记的位置索引,确保滑动窗口注意力机制下推理和训练之间的严格对齐。幸运的是,在音频驱动的视频生成中,这种限制通常是可以接受的,原因有二:(i) 音频流严格限制了每一帧的内容;在常微分方程蒸馏之后,模型将进一步训练以匹配教师模型,方法是最小化“真实分数模型”和“虚假分数模型”概率密度之间的梯度差异,如[3][4]所述。
2025-12-15 19:49:48
587
原创 【AIGC】SCAIL:通过对 3D 一致姿态表示进行上下文学习,实现工作室级角色动画
SCAIL:通过对 3D 一致姿态表示进行上下文学习,实现工作室级角色动画
2025-12-15 19:13:09
600
原创 【AIGC】comfyui解决qwen-image-edit像素偏移方案
链接: https://pan.baidu.com/s/105tPyZyeyPe8LGiwbed-kQ 提取码: jd7w。在1024像素下规范填充输入图像,在生成图像后,再根据mask重新缩放到理想尺寸。基于qwen-image-edit对1024像素值没有偏移情况。
2025-12-10 19:49:53
276
原创 【AIGC】HPS v2:评估人类对文本到图像合成偏好的可靠基准
HPDv2是目前最大的人类图像偏好数据集,包含79.8万组人工标注的图像对比数据,覆盖9个文本到图像生成模型和COCO真实图像,有效解决了先前数据集在图像来源和文本提示方面的偏差问题。研究者采用ChatGPT优化提示词表达,并使用基于OpenClip预训练的ViT-H/14模型进行评估,通过冻结部分层和贝叶斯优化超参数的方式,在128批量大小和3.3e-6学习率等设定下训练4000步。该数据集为评估模型泛化能力提供了更全面的基准。
2025-10-31 17:52:39
1098
原创 音视频同步实例
本文介绍了音视频同步中的关键参数设置:音频采用20ms包时长(AUDIO_PTIME)和16kHz采样率(SAMPLE_RATE),视频采用90kHz时钟频率(VIDEO_CLOCK_RATE)和25fps帧率(VIDEO_PTIME)。通过时间基(VIDEO_TIME_BASE和AUDIO_TIME_BASE)将时间戳转换为统一时间单位,实现音视频同步播放。文章还提供了Python示例代码,展示如何通过计算理论播放时间和实际时间的差值来调整视频播放速度,确保音画同步。这些参数设置和同步逻辑是实时音视频应用
2025-10-28 18:10:12
142
原创 【AIGC】MIMO:基于空间分解建模的可控人物视频合成
在本文中,我们提出了一种新的可控制字符视频合成框架MIMO,它允许用户通过简单的属性输入进行灵活的控制。该方法引入了一种新的生成体系结构,将视频片段分解为不同的空间分量,并嵌入其潜在编码作为解码器重构视频片段的条件。实验结果表明我们的方法不仅可以实现灵活的角色,运动和场景控制,而且还可以扩展到任意角色,通用性到新颖的3D运动,并适用于交互式场景。我们还认为,我们的解决方案考虑了固有的3D性质,并自动将2D视频编码为分层空间组件,可以启发未来3D感知视频合成的研究。
2024-10-19 23:26:48
1131
原创 【AIGC数字人】EchoMimic:基于可编辑关键点条件的类人音频驱动肖像动画
EchoMimic:基于可编辑地标条件的类人音频驱动肖像动画
2024-09-08 17:21:05
1932
1
原创 【BUG】使用accelerator运行分布式代码时卡住:Multi GPU process stuck
使用accelerator运行分布式代码时卡住:Multi GPU process stuck
2024-06-04 16:16:12
2967
原创 【AIGC】FaceChain:发挥生成式内容的无限可能性
FaceChaine提供了一系列的生成方案,通过少量的图像输入,就能生成逼真的个性化肖像。它是一个个性化肖像生成框架,包含丰富的人脸感知相关的模型,例如人脸检测,深度人脸向量提取,人脸属性分析等等。输入主要的肖像生成功能,社区还包括虚拟试穿,2D数字人功能最近的一些工作都聚焦于使用少量的图像再基础模型的基础上去做微调,让微调网络记住某个特定人物身份信息。这样就可以结合提示词在大模型的基础上得到更多新样式的高保真图像。目前人物为主的个性化肖像文生图方法主要分两种:1.基于lora,2基于人脸身份。
2024-06-01 23:51:41
1318
3
原创 【AIGC-数字人】V-Express:渐进式训练的数字人视频生成技术
在人像视频生成领域,使用单张图像生成人像视频已经变得越来越普遍。一种常见的方法涉及利用生成模型来增强适配器以实现受控生成。然而,控制信号的强度可能会有所不同,包括文本、音频、图像参考、姿态、深度图等。其中,较弱的条件往往由于较强条件的干扰而难以发挥作用,这对平衡这些条件提出了挑战。在我们关于肖像视频生成的工作中,我们发现音频信号特别弱,常常被姿势和原始图像等更强的信号所掩盖。然而,用弱信号直接训练往往会导致收敛困难。
2024-06-01 13:21:16
1194
原创 【实用工具】使用飞书机器人监控工程日志
将error,info,debug放在三个机器人上,平时可以查看,等到真正使用时,把info和debug界别日志去掉,避免发送日志影响性能。1.创建一个飞书群聊,设置-->群机器人-->添加机器人-->自定义机器人-->修改机器人名称-->添加。日志信息将包括日期、执行程序的进程和ip,最后加上日志信息。2.复制webhook地址。3.编写日志请求代码。
2024-04-09 22:05:52
1274
原创 【BUG】无法发起与 typora.io:443 (2a03:2880:f10c:83:face:b00c:0:25de) 的连接 - connect (101: 网络不可达)
1. 取消 https://typora.io/linux ./ InRelease。目录中的相关文件,并将对应的软件源的行注释掉,或者将其删除。2. 要取消对特定软件源的更新,您可以编辑。
2024-04-08 20:19:26
1779
原创 【pytorch函数】gather函数
输入张量是一个2行2列的张量,0表示以列为单位进行索引,index_tensor表示对应列上的索引值,比如在第0列上取1,1位置上的值填充到原来的位置,第1列上取1,1位置上的值填充到原来的位置,也就是说只能在各自列或者各自行上的相应位置的元素替换为该列或者该行任意位置的元素。
2024-04-08 20:16:14
906
1
原创 【AIGC】Diffusers:扩散模型的开发手册说明2
扩散器被设计成一个用户友好且灵活的工具箱,用于构建适合您用例的扩散系统。工具箱的核心是模型和调度程序。然而 DiffusionPipeline 为方便起见将这些组件捆绑在一起,但您也可以解包管道并分别使用模型和调度程序来创建新的扩散系统。解构 Stable Diffusion 流水线稳定扩散是一种文本到图像的潜在扩散模型。它被称为潜在扩散模型,因为它使用图像的低维表示而不是实际的像素空间,这使得它更节省内存。编码器将图像压缩为较小的表示形式,解码器将压缩的表示形式转换回图像。对于文本到图像模型,需要。
2024-01-24 23:46:08
1792
1
原创 【AIGC】photomaker:基于多个图像ID嵌入的定制化逼真人物照片
通过一张图或者多张图像输入,该文方法可以记住人物ID,改变属性、改变风格和混合人物ID的效果。效果SOTA。类似的工作有ipadapter,lora,Dreambooth.这些方法不是消耗算例和时间就是效果不明显,不具有泛化性。最近的一些文生图工作在结合文本提示词的情况下合成真人图片已经取得了巨大的进展。这些工作不能同时满足高效,高的ID置信度和文本控制的自由性。我们的工作PhotoMaker是一个有效的个性化文生图生成方法。可以输入任意张ID图像然后通过堆叠来保留ID信息。
2024-01-23 23:32:03
2079
原创 【代码实战】从0到1实现transformer
在本例中,值和键是编码器的输出,而查询是自注意力模型的输出。在高层次上,它基于编码器对源句子上下文的理解,并将解码器输入的部分句子作为查询(可以为空),以预测如何完成句子。但是,如果将它们设置为小于总词汇量的值(例如这种情况),则会限制矢量化器仅学习更频繁的单词,并使生僻单词成为词汇表外 (OOV)。您将看到除了嵌入和位置编码之外,您还有编码器(图的左半部分)和解码器(图的右半部分)。为了理解单词的含义,从而量化两个单词之间的相互关系,您将使用单词嵌入技术。因此,在创建此层时,您可以为其创建一个常量张量。
2024-01-21 23:29:51
1231
原创 【AI理论知识】高斯混合模型
高斯混合模型(GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。GMM是一种常用的聚类算法,一般使用期望最大算法(Expectation Maximization,EM)进行估计。
2024-01-21 22:52:26
1394
原创 【pytorch框架】使用 PyTorch 进行深度学习
PyTorch 是由 Facebook 创建和发布的用于深度学习计算的 Python 库。它起源于早期的库 Torch 7,但完全重写。它是两个最受欢迎的深度学习库之一。PyTorch 是一个完整的库,能够训练深度学习模型以及在推理模式下运行模型,并支持使用 GPU 进行更快的训练和推理。这是一个我们不能忽视的平台。您可以使用pip安装 PyTorch。在撰写本文时,PyTorch 的最新版本是 2.0。每个平台(包括 Windows、Linux 和 macOS)都有预构建的 PyTorch。
2024-01-21 15:34:53
3443
原创 【AI知识片段】Transformer模型中的位置编码
位置编码描述序列中实体的位置或位置,以便为每个位置分配唯一的表示形式。单个数字(如索引值)不用于表示项目在转换器模型中的位置的原因有很多。对于长序列,索引的量级可能会变大。如果将索引值归一化为介于 0 和 1 之间,则可能会对可变长度序列产生问题,因为它们的归一化方式会有所不同。转换器使用智能位置编码方案,其中每个位置/索引都映射到一个向量。因此,位置编码层的输出是一个矩阵,其中矩阵的每一行表示序列的一个编码对象,该序列与其位置信息相加。仅对位置信息进行编码的矩阵示例如下图所示。
2024-01-21 14:59:10
1946
原创 【shell编程入门】stable diffusion webui的webui.sh脚本解析
通过webui.sh,我们可以在linux系统下安装虚拟环境,并启动stable diffuson webui。
2024-01-15 23:54:51
1241
常用数据集集锦.zip
2020-05-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅