等风来不如迎风去
AI领域初学者,AI+实时语音,AI+2/3D动画生成;AI+UE表演,AI+游戏NPC;音视频行业深耕多年,熟悉会议、直播、RTC,对在线教育、娱乐秀场等音视频端到端技术及系统架构有深入研究
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【AIGC】LoRA权重为1反而有副作用
这是一个非常敏锐的直觉,但在 AI 绘画(尤其是 Flux 或 SDXL 模型)的实际操作中,原创 2026-01-30 00:18:39 · 7 阅读 · 0 评论 -
【AIGC】Seedream 、FLUX 、qwen 及LORA
Scene A:Anchor_A = FLUX(米小圈 + Scene A 基本语义)Scene B:Anchor_B = FLUX(米小圈 + Scene B 基本语义)注意这里的关键点👇Anchor_A 和 Anchor_B:是同一个人(米小圈)光照不同氛围不同服装不同(如果你愿意)👉 这是**“同一人,在不同场景下的稳定状态”**而不是“漂移”。校准镜头 ≠ 修复校准镜头 ≠ 回灌校准镜头 =重置身份参考系每进入一个新 Scene,就重置一次身份参考系这是。原创 2026-01-29 15:16:56 · 21 阅读 · 0 评论 -
【即梦4.5】测试 2:多重参考背景替换
示例提示词:结果: 生成的图像非常接近原始人物的面部结构和特征。光照方向和肤色与原图保持一致,而背景和构图则按要求进行了更新。输出看起来像是真实的实地拍摄,而不是完全合成的面孔。原创 2026-01-29 10:43:21 · 13 阅读 · 0 评论 -
【即梦4.5】测试 1:多重参考背景替换
在即梦(Jimeng/Seedream)模型或类似的 Dify 工作流中,模型识别“图 1”、“图 2”和“图 3”并不是依靠图像内容本身去猜,而是严格遵循。作为中间件,Dify 在调用即梦 API 之前,会确保你在界面上上传图片的顺序与生成的 JSON 数组顺序一致。数组里放图片的顺序,就是给模型“喂”图的顺序。提示词: “把图1中女人的背景替换成图2的海边,并在天空中添加两个图3的热气球。等,这进一步辅助了人类开发者的理解,但对模型而言,最关键的是它们在列表里的。在你的 JSON 输入中,原创 2026-01-29 00:42:34 · 25 阅读 · 0 评论 -
【AIGC】Nano Banana Pro无法锁角色
先做“身份向量 + 漂移检测 + 阈值触发纠偏”这条轻量 C,再把 A 的多参考和 seed 固化加上。你会马上从“7~8成像 + 偶尔跑人”变成“稳定 9 成 + 很少跑偏”,而且几乎不需要训练。的字段设计(你这种工程风格会很喜欢)以及“每 N 帧检测、连续低阈值触发纠偏”的伪代码(可直接塞进你现有 pipeline)再附一套阈值怎么标定(用你已有视频跑一遍统计分布就定下来了)先做“身份向量 + 漂移检测 + 阈值触发纠偏”这条轻量 C,再把 A 的多参考和 seed 固化加上。原创 2026-01-20 22:05:57 · 84 阅读 · 0 评论 -
【AIGC】2025年12月13日 AutoMV: Automatic Multi-Agent System for Music Video Generation 2:论文
生成整首歌曲的音乐视频(M2V)面临着重大挑战。现有方法生成的都是简短、不连贯的视频片段,无法与音乐结构、节拍或歌词对齐,且缺乏时间上的连贯性。我们提出了 AutoMV,一个多智能体系统,可以直接从歌曲生成完整的音乐视频(MVs)。AutoMV 首先应用音乐处理工具提取音乐属性,如结构、人声轨道和时间对齐的歌词,并将这些特征构建为后续智能体的上下文输入。编剧智能体和导演智能体随后利用这些信息设计短剧本,在共享的外部库中定义角色特征,并指定摄像机指令。原创 2026-01-20 17:39:42 · 131 阅读 · 0 评论 -
【AIGC】2025年12月13日 AutoMV: Automatic Multi-Agent System for Music Video Generation 1:介绍
AutoMV is a training-free, multi-agent system that automatically generates coherent, long-form music videos (MVs) directly from a full-length song.AutoMV 是一个无需训练的多智能体系统,可以直接从整首歌曲自动生成连贯的长篇音乐视频(MV)。The pipeline integrates music signal analysis, scriptwriti原创 2026-01-20 17:01:32 · 57 阅读 · 0 评论 -
【AIGC】ViMax:5: 全自动化的“脚本到视频”生产线Script2VideoPipeline
阶段核心驱动力提示词侧重点参考信息 (Context)代码对应逻辑角色立绘属性 + 风格静态细节:五官、衣着、画风无(或仅风格)标准帧组合 + 一致性场景构建:角色站位、环境、光影角色立绘 + (可选)前一帧生成的 prompt过渡帧修正 + 保持指令修复:保留背景,替换特定物体过渡视频的截图视频生成动态 + 连贯时间变化:动作幅度、运镜、声音首帧 + 尾帧 (作为约束)这个 Pipeline 的精髓在于它没有用一套通用的 Prompt 模板,而是根据。原创 2026-01-07 23:20:27 · 109 阅读 · 0 评论 -
【docker】moviepy:pic-to-vid-app:latest镜像启动并运行
一跑,你就应该能看到 uvicorn 的启动日志(比如 “Uvicorn running on。跑起来,你很快就能看到到底是“没启动”还是“端口没映射”还是“程序启动报错”。看不到就说明应用没启动成功,日志会直接告诉你缺什么模块/路径不对/权限问题等。而你的 compose 文件(如果有)可能用的是第三个名字。,所以没有运行中的 compose 服务,自然 logs 没输出。你刚才 build 的镜像是。所以建议你统一:要么全部用。原创 2025-12-23 09:24:07 · 64 阅读 · 0 评论 -
【docker】python:3.11-slim的镜像制作
由于你的机器是 16 核,apt和pip可能会启动 16 个线程并行下载和安装。这会瞬间耗尽 2G 内存。建议:在Dockerfile的# 限制 apt 的并发连接数如果这次成功了,最后会显示。请告诉我它卡在哪一行(比如),我能帮你判断是网络没通还是阿里云在排队。原创 2025-12-23 09:10:21 · 102 阅读 · 0 评论 -
【AIGC】ViMax:3: 如何借鉴pipeline 生成剧本
你写好了剧本,它负责“导演+分镜+出图出视频”。:你只有点子,它先当编剧写出分场剧本,再逐场调用 Script2Video。:你给超长文本,它先压缩、抽事件、做RAG找依据、抽场景并生成剧本,还要跨场景做角色一致性,再交给 Script2Video。如果你愿意,我可以按你常用的 AIMV 工作流,给你一个**“歌词→Event→Scene→Screenplay(script字符串)”**的最小可跑 Prompt/数据结构(直接能喂 ViMax 的。原创 2025-12-21 01:00:00 · 72 阅读 · 0 评论 -
【AIGC】ViMax:2:项目入口、配置、技术报告
问题ViMax 解法LLM 处理不了长剧情角色、场景一致性差多机位空间错乱画质不稳定生成不可控多 Agent 职责划分你 AIMV 系统若结合这些技术,将会直接对标 ViMax 级别的架构。原创 2025-12-20 01:00:00 · 84 阅读 · 0 评论 -
【AIGC】ViMax:1: 解决痛点及UV环境配置
它很像一条“视频处理(抽帧/分镜/剪辑) + LLM/LangChain(理解/生成) + 向量检索Faiss(RAG/素材匹配) + 网络调用(多模型/网关/流式) + 结构化配置(pydantic)”的工作流。如果你把或项目要实现的核心功能(比如:视频分镜→生成分镜文案→检索素材→合成视频?)贴一小段,我可以按你的实际业务,把这些库进一步映射到“每一步会用到哪些库”。原创 2025-12-14 15:59:59 · 153 阅读 · 2 评论 -
【AIGC】侧脸引起的AIGC 角色一致性崩坏
罪魁祸首是in profile(侧颜)。“不要画 90 度侧脸,除非你能接受换人。请在 JSON 里把它改成,脸就回来了。原创 2025-12-11 20:15:21 · 180 阅读 · 0 评论 -
【Paper2Slides】3:核心流程:四阶段、状态管理
分快速测试模式和正常模式的结果,避免互相干扰。 get_config_dir: 在模式目录下,根据具体的配置参数创建更细化的子目录。 输入: 模式目录、配置字典 config。 逻辑: 解析 config 中的关键参数(例如 output_type, style, slides_length),生成一个描述性的目录名(例如 slides_academic_medium)。 输出: .../mode/slides_academic_medium/ 作用: 为每一种独特的配置组合创建独立的目录,方便用户对比不同原创 2025-12-11 20:12:23 · 142 阅读 · 0 评论 -
【Paper2Slides】2:图片生成工作逻辑
style_ref_image 作为风格参考图直接传递给底层图片生成模型使用,确保幻灯片视觉风格统一。该变量包含第二张幻灯片的Base64编码图像数据和强制一致性指令,在生成后续幻灯片时作为首要参考。模型同时接收视觉信息和"STRICTLY MAINTAIN..."文本指令,强制保持背景色、强调色、字体等元素的一致性,从而实现整个演示文稿的视觉连贯性。原创 2025-12-10 14:53:56 · 149 阅读 · 0 评论 -
【Paper2Slides】1:提示词分析:图片生成、内容规划、论文提取
这个过程就像一个编辑或设计师在制作演示文稿前,先规划好每一页应该放什么标题、什么文字、以及配上哪张图或哪个表格。这个 JSON 计划是。原创 2025-12-10 11:56:38 · 220 阅读 · 0 评论 -
【Docker 】 本地缓存PyTorch 和 NVIDIA 依赖包
只用【方案一】就足够好了。虽然 6MB/s 下载 2GB 需要点时间(大约 5-10 分钟),但加上后,只要下载成功一次,这辈子都不用再下载了,哪怕你改了 Dockerfile 的其他地方,这一层也会复用本地磁盘上的文件。修改,把那段RUN命令改成带有的版本,然后去掉。原创 2025-12-04 15:42:45 · 174 阅读 · 0 评论 -
【huggingface】docling 模型下载
目录下,然后修改 Dockerfile 屏蔽下载,修改 docker-compose.yml 挂载进去。也降级,降到一个兼容 Numpy 1.x 的版本(通常 4.10.x 或更早的版本就可以)。(注意:我加上了 headless 版本,以防万一你环境里装的是无头版,这两个最好保持一致)如果上面的命令执行完没有报错,或者只是报了一些无关痛痒的警告,那么你的环境基本就修复了。既然你是在搞 SurfSense 的 Docker 部署,(这是默认路径),把里面的东西打包或者直接复制出来。原创 2025-12-04 11:14:33 · 131 阅读 · 0 评论 -
【HuggingFace】模型下载:sentence-transformers/all-MiniLM-L6-v2
不需要纠结git-xet。brewgit-xetgit clone请使用以下。原创 2025-12-04 10:40:22 · 497 阅读 · 0 评论 -
【dify】gemini bananpro 的生图输出映射为python代码
根据你提供的输入数据和需求,你的主要目标是将 Dify 节点中的参数名(arg1arg2)映射为更有意义的变量名(textfiles),并确保代码能正确解析arg2中包含的文件信息。原创 2025-12-02 10:43:49 · 98 阅读 · 0 评论 -
【CosyVoice2】4「不走 Triton Server,纯 Python gRPC + JIT + vLLM」结果分析
文章摘要: 本文记录了CosyVoice语音合成项目的优化实践,成功结合JIT(TorchScript)和vLLM实现加速方案。测试数据显示音频生成耗时0.75-2.45秒,RTF(实时因子)在0.122-0.341之间。项目采用ONNXRuntime + CUDA/TensorRT EP处理声学模型,vLLM + torch.compile + CUDA Graph处理LLM部分,绕过了Triton Server直接使用Python gRPC方案。关键优化包括Flash Attention后端、编译图缓存原创 2025-11-25 12:27:46 · 163 阅读 · 0 评论 -
【cosyvoice2 】3:vLLM加速+旧版官方+旧模型成功运行
本文介绍了在Ubuntu系统中通过PyCharm SSH远程部署vLLM加速环境的过程。首先检查了Python 3.10.16、PyTorch 2.5.1+cu124、vLLM 0.7.3和ONNX Runtime 1.19.0等关键组件的版本兼容性,确认环境配置正确。文章提供了环境备份和恢复的方法,并详细说明了如何从零开始搭建满足要求的开发环境,包括Python环境创建、PyTorch安装、vLLM和ONNX Runtime的版本控制。最后给出了验证环境配置的脚本和固定环境配置的建议。对于vLLM代码较老原创 2025-11-25 11:21:11 · 146 阅读 · 0 评论 -
【CosyVoice2】2 :triton_trtllm 基准测试结果分析
CosyVoice 的Triton/TensorRT 版本确实具备了驱动实时数字人的能力(200ms 级延迟),处于行业领先水平。但它对算力资源极其敏感,且工程部署难度较大(需要编译 TensorRT 引擎)。落地建议:使用目录下的方案进行部署。开启以获得最低延迟(约 190ms)。在 LLM 和 TTS 之间增加智能断句算法,平衡“句子完整度”和“响应速度”。原创 2025-11-25 10:07:12 · 94 阅读 · 0 评论 -
【cosyvoice2 】1:pycharm ssh远程ubuntu部署vLLM加速版本
本文介绍了在PyCharm中配置SSH远程开发的方法。主要内容包括:1) 查看SSH服务监听端口的三种方法(配置文件查询、监听端口检查、本地SSH测试);2) 配置PyCharm远程SSH开发的关键步骤:首先生成SSH密钥并配置免密登录,然后在PyCharm中选择Key pair验证方式指定私钥文件;3) 在远程解释器、部署配置和终端中复用SSH配置的具体操作流程。文章提供了详细的命令行操作和图形界面配置说明,适用于Windows和Linux/macOS系统,帮助开发者实现PyCharm与远程服务器的无缝连原创 2025-11-23 22:28:22 · 208 阅读 · 0 评论 -
【agent】AI 数字人构建15:GPT5的TTS 选型分析
本文针对数字人TTS选型提出三大关键指标:流式首包低延迟(<250ms)、强可控表达能力、稳定的说话人一致性。根据应用场景推荐:交互型数字人首选CosyVoice2(首包150ms)和XTTS-v2(多语言克隆);影视配音推荐IndexTTS2(情绪表现强)。建议采用多引擎分层架构,实时对话用CosyVoice2,高表现需求用IndexTTS2重渲,并配合文本切片、角色缓存、推理加速等工程优化方案,实现低延迟交互与高质量输出的平衡。原创 2025-11-23 21:13:47 · 273 阅读 · 0 评论 -
【chatai】第一个vue项目编译运行
文章摘要: 该项目是一个基于Vue 3的语音聊天应用前端,需要配合FunASR后端服务使用。关键要点包括: 开发环境配置:必须使用Volar插件(现名Vue Official)并禁用Vetur插件以避免冲突 运行方式: 开发模式:npm run dev(热重载) 生产部署:npm run build(生成dist目录) 核心功能流程: 音频采集:16kHz单声道PCM格式 数据传输:通过WebSocket发送base64编码音频到ws://localhost:8080/chat 消息格式:支持chat.vo原创 2025-11-23 20:45:26 · 132 阅读 · 0 评论 -
【TTS】2025.3: SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System及c++代码
SupertonicTTS:面向实时数字人的高效语音合成方案 SupertonicTTS是一种专为低延迟场景设计的语音合成系统,其核心优势在于极快的推理速度(RTF 0.001-0.015)和简洁的架构。该系统采用语音自动编码器将音频压缩为低维潜在向量,配合Flow Matching技术实现2-5步快速推理,无需自回归解码。虽然当前版本仅支持英文且缺乏原生流式接口,但其超快的整句生成速度(1秒语音仅需10ms)使其仍可通过分块处理实现伪流式效果。对于3D数字人应用,该系统能显著降低TTS延迟,简化部署流程,原创 2025-11-23 00:50:01 · 166 阅读 · 0 评论 -
【copilot】pycharm:Github Copilot 一直初始化initializing freezes in WSL2
如果以上都不行,我们需要看看到底卡在哪一步。在 PyCharm 底部,找到的图标(或者在 View -> Tool Windows -> GitHub Copilot)。切换到Log标签页。Help->(这会打开 Windows 的文件夹,你需要找 Remote 相关的日志,或者直接在 IDE 里点 “Show Log in Editor”)。搜索[copilot]关键字。如果是ETIMEDOUT-> 网络/代理问题。如果是EACCES-> 文件权限问题(尝试。原创 2025-11-21 10:39:14 · 219 阅读 · 0 评论 -
【agent】AI 数字人构建14:FunASR 2-pass实时版本python中转和延迟分析
中转脚本(Middleware)是位于FunASR 服务端和3D 引擎 (UE5/Unity)之间的桥梁。它的工作流如下:音频采集:中转脚本调用 PyAudio 读取麦克风(或者接收 UE5 传来的音频流)。ASR 识别:中转脚本调用,把音频发给 FunASR Server。逻辑分发 (最关键的一步)当收到(流式结果):通过 UDP/TCP 告诉 UE5 播放“倾听/点头”动画。当收到。原创 2025-11-20 17:04:20 · 150 阅读 · 0 评论 -
【agent】AI 数字人构建13:FunASR 2-pass实时版本测试及系统分析
本文介绍了FunASR 2-pass语音识别服务的本地实时测试情况。在完成服务端改造后,使用修改后的C++服务端和原生客户端进行麦克风实时ASR测试。测试结果显示,系统能够准确识别并返回实时语音内容(如"你好"、"你是谁"等),同时提供分段时间戳信息。客户端日志详细记录了2pass模式下在线和离线识别结果,展示了实时语音识别的完整流程和性能表现。测试证实了改造后的FunASR服务在实时语音识别场景下的可用性。原创 2025-11-20 16:28:24 · 104 阅读 · 0 评论 -
【win11】funasr 7:ASR离线ONNX模型及VAD模型onnx选择及模型全部C++正确加载
您的 C++ 代码指向了 speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online 这个目录,但该目录下缺少量化版的 ONNX 模型 (model_quant.onnx)。这个脚本的核心功能是确保您指定的模型(通过 ModelScope ID 或本地路径)被转换为 C++ Runtime 所需的特定格式(ONNX、TorchScript 或 BladeDisc)。model_quant.onnx (如果您想使用量化模型)原创 2025-11-20 15:48:42 · 145 阅读 · 0 评论 -
【win11】funasr 8:离线大模型的onnx导出和量化
PyTorch模型转ONNX脚本执行指南 本文提供了在Windows PowerShell环境下将PyTorch模型导出为ONNX格式的详细步骤。主要操作包括:通过Python脚本调用FunASR工具包,指定模型路径和导出目录,并启用量化选项。针对可能出现的"ModuleNotFoundError"错误,给出了解决方案:设置PYTHONPATH变量指向FunASR源码父目录。完整命令行示例包含模型路径处理、环境变量设置和脚本调用方法,适用于FunASR框架下的语音识别模型转换场景。执行成原创 2025-11-20 01:01:50 · 117 阅读 · 0 评论 -
【agent】AI 数字人构建12:FunASR 2-pass服务分析及实时版本改造
摘要:分析FunASR 2-pass服务的关键配置差异,重点关注模型目录、语言模型和参数设置。1) 在线/离线模型配置需区分:model-dir应使用离线高精度模型,online-model-dir使用流式模型;2) lm_dir语言模型实际使用相同的FST格式n-gram模型;3) 其他参数包括端口号(默认10095)、热词路径和线程数(自动计算)需要注意一致性。建议启动时明确区分在线/离线模型目录,保持其他参数与脚本默认值或自定义需求一致,以确保2-pass服务的正确运行。原创 2025-11-20 00:55:11 · 88 阅读 · 0 评论 -
【win11】funasr 6:本地安装funasr调试包
FunASR源码调试中可编辑安装的关键作用 可编辑安装(pip install -e .)在FunASR调试过程中具有三个核心价值: 路径注册:解决ModuleNotFoundError问题,通过创建软链接使Python能自动识别源码路径 实时调试:-e参数启用可编辑模式,修改源码后无需重复安装,改动即时生效 依赖管理:自动解析setup.py安装所有必要依赖包 安装过程会自动下载scipy、librosa、sentencepiece等关键依赖。这种安装方式实质上是告知Python系统:将当前目录作为fun原创 2025-11-20 00:40:11 · 128 阅读 · 0 评论 -
【win11】funasr 5:删除conda环境并改为F盘重建
删除FunASR环境摘要 由于C盘空间有限且路径过长,我删除了之前建立的FunASR环境(funasr_py39)。该环境包含Python 3.9、PyTorch 2.5.1、CUDA 12.9等相关组件,共涉及60多个包,包括深度学习框架、数学库和GPU支持包等。通过conda命令移除整个环境,以释放C盘空间。原创 2025-11-20 00:35:04 · 71 阅读 · 0 评论 -
【agent】AI 数字人构建11:FunASR 2:c++工程分析及模型下载
FunASR 2是一个多功能语音处理工具套件,支持GPU/CPU部署,提供离线转写、实时听写、语音唤醒、情感识别等功能。它采用2pass架构实现边听边写的高精度识别,并支持多语言处理和语音理解任务。工程分析显示该项目基于Python构建,通过setup.py管理依赖,同时提供C++版本的WebSocket服务/客户端,已在VS2022成功编译。部署方式包括Docker和本地运行,需要配置ONNX Runtime等依赖库。最新版本还新增了语音唤醒模型和语音理解模型SenseVoice。原创 2025-11-11 22:28:25 · 353 阅读 · 5 评论 -
【win11】funasr 4:配置python依赖项并下载模型
本文记录了FunASR实时语音听写模型安装过程中遇到的问题及解决方案。首先指出运行需要torch环境,但在安装过程中出现报错。通过尝试python setup.py install和pip install torch均未成功,随后直接提取setup.py中的核心依赖项,整理出标准安装命令(包含scipy、librosa、PyYAML等基础包)和全功能安装命令(额外包含训练与LLM相关组件)。建议优先安装PyTorch后执行依赖安装命令。最后作者提供了实际使用的安装指令组合,为类似环境下的FunASR安装提供原创 2025-10-31 22:22:30 · 416 阅读 · 0 评论 -
【AIGC】多阶段镜头风格模板:现实世界-幻想世界-人文象征
摘要:AIGC混合现实幻想视觉风格解析 本文系统分析了一种典型的"AIGC混合现实幻想风格",该风格融合写实质感、梦幻光影与AI生成特征,呈现出"AI叙事视觉三段式"结构:左图为写实CG电影风,展现哲思氛围;中图为梦幻奇幻插画风,充满神秘光效;右图为新古典主义油画风,体现人文情感。文章提供了详细的视觉风格拆解、情感叙事分析,并给出适用于Midjourney等平台的提示词模板(包括英文prompt和JSON结构化格式),以及角色一致性控制、色调过渡等实践技巧,可作为AI原创 2025-10-29 22:22:11 · 219 阅读 · 0 评论 -
【AIGC】2025:MV-Crafter: An Intelligent System for Music-guided Video Generation
MV-Crafter是一款智能音乐视频生成系统,通过三大核心模块简化创作流程:1)剧本生成模块利用LLM分析音乐语义,生成连贯叙事的场景提示;2)视频生成模块采用扩散模型将文本提示转化为高质量视频片段;3)动态同步模块创新性地结合节拍匹配算法与视觉包络变形技术,实现任意长度音视频的精确对齐。系统突破传统方法的局限性,在叙事连贯性、视觉质量及节奏同步三个维度显著提升,用户仅需提供音乐和主题关键词即可生成专业级MV。实验验证了该系统在实现音乐语义与视觉表达深度融合方面的有效性。原创 2025-10-28 21:12:23 · 127 阅读 · 0 评论
分享