Be a loity-CSDN博客

原创某里最新image2video的模型LAM效果测试

项目地址：https://github.com/aigc3d/LAM/blob/master/README_CN.md。表情效果和嘴形生成比不上liveportrait。生成效果视频人物会变形和原图不像。

2025-04-09 11:41:52 431

原创某政府采购网cookie还原思路

关于验证码这部分：纯前段校验，接口无需验证码。

2025-04-08 20:29:07 350

原创 Deepseek-R1中 Grpo的策略模型的奖励函数

deepseek R1复现中的reward奖励机制函数

2025-03-04 14:10:56 962

原创 EMO：Emote Portrait Alive 某里的人物视频模型解读

我们从Internet收集了大约250个小时的会话视频，并用HDTF 和VFHQ 数据集补充，由于VFHQ数据集缺乏音频，因此仅在第一个训练阶段使用。，通过一个稳定扩散（Stable Diffusion）架构进行视频生成。出发，直接生成动态、富有表情的头像视频，不仅能模拟人物讲话，还能处理唱歌等复杂情况。为了处理视频帧之间的时间连续性，引入了时间模块，这有助于生成平滑且连贯的视频流。音频驱动的肖像说话生成方法主要分为两种：基于视频和基于单张图片。3D模型或面部关键点的中间步骤，直接从音频预测视频。

2025-02-26 15:41:12 830

原创 DeepSeek-R1 核心模块 GRPO学习

在LLMs的训练中，强化学习算法一直是提升模型性能的关键。然而，传统算法如PPO面临着计算开销大、策略更新不稳定等问题。今天，我们将深入解析DeepSeek-R1模型中的强化学习算法——GRPO（Group Relative Policy Optimization）。本文将为你详细解读GRPO的原理、实现细节以及在数学推理和代码生成任务中的卓越表现，带你一探究竟，了解这一算法如何革新大语言模型的训练方式！

2025-02-26 15:38:11 820

原创主流music 创作模型和翻唱模型效果测试

bgm和人声是分开的，rapper还行。相对平稳的音乐转化音色还行，音调较高，变化较大的不行。风格创作、指定类似风格和音色创作的效果都很好。歌词+风格+指定人声音（仅限创作出来的）仅限于社区创作的歌曲，不能指定外部音色。符合指定风格，生成的音乐效果好。风格创作效果还行，不如suno。rapper英文还行，中文未测。歌词+bgm+指定说话人声。中文效果很差，英文还可以。节奏和音调好，克隆声音像。支持克隆，但是音色不像。英文效果可以，中文未尝试。歌词+风格+指定人声音。歌词+风格+音色+旋律。

2025-02-20 17:57:24 456

原创某节的OmniHuman-1 paper 阅读

这种方法解决了端到端框架中的数据扩展挑战，使模型能够受益于大规模数据训练，学习自然运动模式，并支持各种输入形式。OmniHuman显著改善了手势生成，这是先前端到端模型的挑战，并支持各种图像风格，显著优于现有的音频条件人体视频生成方法。例如，大多数现有的端到端音频条件模型仅限于面部或肖像动画（类似于某里的EMO V1），而大多数姿势条件模型只能处理从正面视角拍摄的全身图像，且背景静态。（1）更强条件的任务可以利用较弱条件的任务及其对应的数据，在模型训练过程中实现数据扩展；我们的关键见解是，在训练过程中。

2025-02-18 16:44:01 404

weixin_42590734的博客