自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 某里最新image2video的模型LAM效果测试

项目地址:https://github.com/aigc3d/LAM/blob/master/README_CN.md。表情效果和嘴形生成比不上liveportrait。生成效果视频人物会变形和原图不像。

2025-04-09 11:41:52 431

原创 某政府采购网cookie还原思路

关于验证码这部分:纯前段校验,接口无需验证码。

2025-04-08 20:29:07 350

原创 Deepseek-R1中 Grpo的策略模型的奖励函数

deepseek R1复现中的reward奖励机制函数

2025-03-04 14:10:56 962

原创 EMO:Emote Portrait Alive 某里的人物视频模型解读

我们从Internet收集了大约250个小时的会话视频,并用HDTF 和VFHQ 数据集补充,由于VFHQ数据集缺乏音频,因此仅在第一个训练阶段使用。,通过一个稳定扩散(Stable Diffusion)架构进行视频生成。出发,直接生成动态、富有表情的头像视频,不仅能模拟人物讲话,还能处理唱歌等复杂情况。为了处理视频帧之间的时间连续性,引入了时间模块,这有助于生成平滑且连贯的视频流。音频驱动的肖像说话生成方法主要分为两种:基于视频和基于单张图片。3D模型或面部关键点的中间步骤,直接从音频预测视频。

2025-02-26 15:41:12 830

原创 DeepSeek-R1 核心模块 GRPO学习

在LLMs的训练中,强化学习算法一直是提升模型性能的关键。然而,传统算法如PPO面临着计算开销大、策略更新不稳定等问题。今天,我们将深入解析DeepSeek-R1模型中的强化学习算法——GRPO(Group Relative Policy Optimization)。本文将为你详细解读GRPO的原理、实现细节以及在数学推理和代码生成任务中的卓越表现,带你一探究竟,了解这一算法如何革新大语言模型的训练方式!

2025-02-26 15:38:11 820

原创 主流music 创作模型和翻唱模型效果测试

bgm和人声是分开的,rapper还行。相对平稳的音乐转化音色还行,音调较高,变化较大的不行。风格创作、 指定类似风格和音色创作 的效果都很好。歌词+风格+指定人声音(仅限创作出来的)仅限于社区创作的歌曲,不能指定外部音色。符合指定风格,生成的音乐效果好。风格创作效果还行,不如suno。rapper英文还行,中文未测。歌词+bgm+指定说话人声。中文效果很差,英文还可以。节奏和音调好,克隆声音像。支持克隆,但是音色不像。英文效果可以,中文未尝试。歌词+风格+指定人声音。歌词+风格+音色+旋律。

2025-02-20 17:57:24 456

原创 某节的OmniHuman-1 paper 阅读

这种方法解决了端到端框架中的数据扩展挑战,使模型能够受益于大规模数据训练,学习自然运动模式,并支持各种输入形式。OmniHuman显著改善了手势生成,这是先前端到端模型的挑战,并支持各种图像风格,显著优于现有的音频条件人体视频生成方法。例如,大多数现有的端到端音频条件模型仅限于面部或肖像动画 (类似于某里的EMO V1),而大多数姿势条件模型只能处理从正面视角拍摄的全身图像,且背景静态。(1)更强条件的任务可以利用较弱条件的任务及其对应的数据,在模型训练过程中实现数据扩展;我们的关键见解是,在训练过程中。

2025-02-18 16:44:01 404

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除