- 博客(3565)
- 资源 (147)
- 收藏
- 关注
原创 【AIGC】Seedream 、FLUX 、qwen 及LORA
Scene A:Anchor_A = FLUX(米小圈 + Scene A 基本语义)Scene B:Anchor_B = FLUX(米小圈 + Scene B 基本语义)注意这里的关键点👇Anchor_A 和 Anchor_B:是同一个人(米小圈)光照不同氛围不同服装不同(如果你愿意)👉 这是**“同一人,在不同场景下的稳定状态”**而不是“漂移”。校准镜头 ≠ 修复校准镜头 ≠ 回灌校准镜头 =重置身份参考系每进入一个新 Scene,就重置一次身份参考系这是。
2026-01-29 15:16:56
21
原创 【即梦4.5】测试 2:多重参考背景替换
示例提示词:结果: 生成的图像非常接近原始人物的面部结构和特征。光照方向和肤色与原图保持一致,而背景和构图则按要求进行了更新。输出看起来像是真实的实地拍摄,而不是完全合成的面孔。
2026-01-29 10:43:21
13
原创 【即梦4.5】测试 1:多重参考背景替换
在即梦(Jimeng/Seedream)模型或类似的 Dify 工作流中,模型识别“图 1”、“图 2”和“图 3”并不是依靠图像内容本身去猜,而是严格遵循。作为中间件,Dify 在调用即梦 API 之前,会确保你在界面上上传图片的顺序与生成的 JSON 数组顺序一致。数组里放图片的顺序,就是给模型“喂”图的顺序。提示词: “把图1中女人的背景替换成图2的海边,并在天空中添加两个图3的热气球。等,这进一步辅助了人类开发者的理解,但对模型而言,最关键的是它们在列表里的。在你的 JSON 输入中,
2026-01-29 00:42:34
25
原创 【android】oppo手机拷贝视频文件
oppo 至今没有一个助手,有一个助手是升级系统的有一个connect实际上是做镜像手机屏幕的当然,也能监控文件变化对于我有一个camera文件夹2000个文件导致我每次不开着手机,导出文件到pc经常会断开连接。然后如果重新connect,会到处一堆xxx(1) 这样的文件完全没有什么 断点续传、文件存在检测这样的功能可见oppo 是没有以顾客为中心啊。插入usb传输文件后,
2026-01-28 15:15:43
135
原创 【AIGC】Nano Banana Pro无法锁角色
先做“身份向量 + 漂移检测 + 阈值触发纠偏”这条轻量 C,再把 A 的多参考和 seed 固化加上。你会马上从“7~8成像 + 偶尔跑人”变成“稳定 9 成 + 很少跑偏”,而且几乎不需要训练。的字段设计(你这种工程风格会很喜欢)以及“每 N 帧检测、连续低阈值触发纠偏”的伪代码(可直接塞进你现有 pipeline)再附一套阈值怎么标定(用你已有视频跑一遍统计分布就定下来了)先做“身份向量 + 漂移检测 + 阈值触发纠偏”这条轻量 C,再把 A 的多参考和 seed 固化加上。
2026-01-20 22:05:57
84
原创 【AIGC】2025年12月13日 AutoMV: Automatic Multi-Agent System for Music Video Generation 2:论文
生成整首歌曲的音乐视频(M2V)面临着重大挑战。现有方法生成的都是简短、不连贯的视频片段,无法与音乐结构、节拍或歌词对齐,且缺乏时间上的连贯性。我们提出了 AutoMV,一个多智能体系统,可以直接从歌曲生成完整的音乐视频(MVs)。AutoMV 首先应用音乐处理工具提取音乐属性,如结构、人声轨道和时间对齐的歌词,并将这些特征构建为后续智能体的上下文输入。编剧智能体和导演智能体随后利用这些信息设计短剧本,在共享的外部库中定义角色特征,并指定摄像机指令。
2026-01-20 17:39:42
131
原创 【AIGC】2025年12月13日 AutoMV: Automatic Multi-Agent System for Music Video Generation 1:介绍
AutoMV is a training-free, multi-agent system that automatically generates coherent, long-form music videos (MVs) directly from a full-length song.AutoMV 是一个无需训练的多智能体系统,可以直接从整首歌曲自动生成连贯的长篇音乐视频(MV)。The pipeline integrates music signal analysis, scriptwriti
2026-01-20 17:01:32
57
原创 【PyCharm 】中其实是可以同时运行多个程序
是的,PyCharm 确实可以同时运行多个程序或脚本,主要通过在运行配置中勾选 “Allow parallel run” (允许并行运行) 选项来实现,这样你就可以同时启动和管理多个独立的 Python 脚本或任务。你也可以通过 “File” -> “New Project” (新建项目) 或 “File” -> “Open” (打开) 来打开多个独立的项目,每个项目在自己的窗口中运行,这提供了更隔离的开发环境。现在,你可以独立运行多个脚本,它们会出现在不同的运行/调试工具窗口中。
2026-01-13 11:15:44
471
原创 【AIGC】ViMax:5: 全自动化的“脚本到视频”生产线Script2VideoPipeline
阶段核心驱动力提示词侧重点参考信息 (Context)代码对应逻辑角色立绘属性 + 风格静态细节:五官、衣着、画风无(或仅风格)标准帧组合 + 一致性场景构建:角色站位、环境、光影角色立绘 + (可选)前一帧生成的 prompt过渡帧修正 + 保持指令修复:保留背景,替换特定物体过渡视频的截图视频生成动态 + 连贯时间变化:动作幅度、运镜、声音首帧 + 尾帧 (作为约束)这个 Pipeline 的精髓在于它没有用一套通用的 Prompt 模板,而是根据。
2026-01-07 23:20:27
109
原创 【WSL2】关闭hyperv后如何起启用mirrored模式
从你执行的命令结果来看,。但请放心,这并不影响你运行 WSL2。正如之前提到的,WSL2 只需要底层的“虚拟机平台”功能,而不强制要求开启这个完整的“Hyper-V 管理平台”。以下是为你整理的的详细设置步骤,以及针对你 VPN 冲突问题的深度优化方案。
2025-12-23 15:46:11
226
原创 【html】 后端服务支持但chrome无法下载到文件
这个截图,而且和你后端/网关都。,而是当成了一个,所以。下面我结合你这张 Network 截图,逐条解释“为什么会这样”以及“怎么一行代码修好”。
2025-12-23 15:44:37
168
原创 【docker】代理服务器导致无法push
在 Docker 环境中,如果配置了错误的代理(Proxy),会导致 Docker 引擎在尝试连接镜像站(如阿里云、清华源)时,请求先发给了一个无效的代理服务器,代理服务器连接不上目标,就会返回。
2025-12-23 12:13:24
86
原创 【docker】moviepy:pic-to-vid-app:latest镜像启动并运行
一跑,你就应该能看到 uvicorn 的启动日志(比如 “Uvicorn running on。跑起来,你很快就能看到到底是“没启动”还是“端口没映射”还是“程序启动报错”。看不到就说明应用没启动成功,日志会直接告诉你缺什么模块/路径不对/权限问题等。而你的 compose 文件(如果有)可能用的是第三个名字。,所以没有运行中的 compose 服务,自然 logs 没输出。你刚才 build 的镜像是。所以建议你统一:要么全部用。
2025-12-23 09:24:07
64
原创 【docker】python:3.11-slim的镜像制作
由于你的机器是 16 核,apt和pip可能会启动 16 个线程并行下载和安装。这会瞬间耗尽 2G 内存。建议:在Dockerfile的# 限制 apt 的并发连接数如果这次成功了,最后会显示。请告诉我它卡在哪一行(比如),我能帮你判断是网络没通还是阿里云在排队。
2025-12-23 09:10:21
102
原创 【AIGC】ViMax:3: 如何借鉴pipeline 生成剧本
你写好了剧本,它负责“导演+分镜+出图出视频”。:你只有点子,它先当编剧写出分场剧本,再逐场调用 Script2Video。:你给超长文本,它先压缩、抽事件、做RAG找依据、抽场景并生成剧本,还要跨场景做角色一致性,再交给 Script2Video。如果你愿意,我可以按你常用的 AIMV 工作流,给你一个**“歌词→Event→Scene→Screenplay(script字符串)”**的最小可跑 Prompt/数据结构(直接能喂 ViMax 的。
2025-12-21 01:00:00
72
原创 【AIGC】ViMax:2:项目入口、配置、技术报告
问题ViMax 解法LLM 处理不了长剧情角色、场景一致性差多机位空间错乱画质不稳定生成不可控多 Agent 职责划分你 AIMV 系统若结合这些技术,将会直接对标 ViMax 级别的架构。
2025-12-20 01:00:00
84
原创 【AIGC】ViMax:1: 解决痛点及UV环境配置
它很像一条“视频处理(抽帧/分镜/剪辑) + LLM/LangChain(理解/生成) + 向量检索Faiss(RAG/素材匹配) + 网络调用(多模型/网关/流式) + 结构化配置(pydantic)”的工作流。如果你把或项目要实现的核心功能(比如:视频分镜→生成分镜文案→检索素材→合成视频?)贴一小段,我可以按你的实际业务,把这些库进一步映射到“每一步会用到哪些库”。
2025-12-14 15:59:59
153
2
原创 【AIGC】侧脸引起的AIGC 角色一致性崩坏
罪魁祸首是in profile(侧颜)。“不要画 90 度侧脸,除非你能接受换人。请在 JSON 里把它改成,脸就回来了。
2025-12-11 20:15:21
180
原创 【Paper2Slides】3:核心流程:四阶段、状态管理
分快速测试模式和正常模式的结果,避免互相干扰。 get_config_dir: 在模式目录下,根据具体的配置参数创建更细化的子目录。 输入: 模式目录、配置字典 config。 逻辑: 解析 config 中的关键参数(例如 output_type, style, slides_length),生成一个描述性的目录名(例如 slides_academic_medium)。 输出: .../mode/slides_academic_medium/ 作用: 为每一种独特的配置组合创建独立的目录,方便用户对比不同
2025-12-11 20:12:23
142
原创 【Paper2Slides】2:图片生成工作逻辑
style_ref_image 作为风格参考图直接传递给底层图片生成模型使用,确保幻灯片视觉风格统一。该变量包含第二张幻灯片的Base64编码图像数据和强制一致性指令,在生成后续幻灯片时作为首要参考。模型同时接收视觉信息和"STRICTLY MAINTAIN..."文本指令,强制保持背景色、强调色、字体等元素的一致性,从而实现整个演示文稿的视觉连贯性。
2025-12-10 14:53:56
149
原创 【Paper2Slides】1:提示词分析:图片生成、内容规划、论文提取
这个过程就像一个编辑或设计师在制作演示文稿前,先规划好每一页应该放什么标题、什么文字、以及配上哪张图或哪个表格。这个 JSON 计划是。
2025-12-10 11:56:38
220
原创 【Docker 】 本地缓存PyTorch 和 NVIDIA 依赖包
只用【方案一】就足够好了。虽然 6MB/s 下载 2GB 需要点时间(大约 5-10 分钟),但加上后,只要下载成功一次,这辈子都不用再下载了,哪怕你改了 Dockerfile 的其他地方,这一层也会复用本地磁盘上的文件。修改,把那段RUN命令改成带有的版本,然后去掉。
2025-12-04 15:42:45
174
原创 【huggingface】docling 模型下载
目录下,然后修改 Dockerfile 屏蔽下载,修改 docker-compose.yml 挂载进去。也降级,降到一个兼容 Numpy 1.x 的版本(通常 4.10.x 或更早的版本就可以)。(注意:我加上了 headless 版本,以防万一你环境里装的是无头版,这两个最好保持一致)如果上面的命令执行完没有报错,或者只是报了一些无关痛痒的警告,那么你的环境基本就修复了。既然你是在搞 SurfSense 的 Docker 部署,(这是默认路径),把里面的东西打包或者直接复制出来。
2025-12-04 11:14:33
131
原创 【HuggingFace】模型下载:sentence-transformers/all-MiniLM-L6-v2
不需要纠结git-xet。brewgit-xetgit clone请使用以下。
2025-12-04 10:40:22
497
原创 【win11】ics服务和53端口
(base) PS C:\Users\zhangbin> wsl --shutdown(base) PS C:\Users\zhangbin> notepad $env:USERPROFILE.wslconfig(base) PS C:\Users\zhangbin> netstat -ano -p udp | findstr :53UDP 0.0.0.0:53 : 4924UDP 0.0.0.
2025-12-04 08:38:21
594
原创 【dify】gemini bananpro 的生图输出映射为python代码
根据你提供的输入数据和需求,你的主要目标是将 Dify 节点中的参数名(arg1arg2)映射为更有意义的变量名(textfiles),并确保代码能正确解析arg2中包含的文件信息。
2025-12-02 10:43:49
98
原创 【CosyVoice2】4「不走 Triton Server,纯 Python gRPC + JIT + vLLM」结果分析
文章摘要: 本文记录了CosyVoice语音合成项目的优化实践,成功结合JIT(TorchScript)和vLLM实现加速方案。测试数据显示音频生成耗时0.75-2.45秒,RTF(实时因子)在0.122-0.341之间。项目采用ONNXRuntime + CUDA/TensorRT EP处理声学模型,vLLM + torch.compile + CUDA Graph处理LLM部分,绕过了Triton Server直接使用Python gRPC方案。关键优化包括Flash Attention后端、编译图缓存
2025-11-25 12:27:46
163
原创 【cosyvoice2 】3:vLLM加速+旧版官方+旧模型成功运行
本文介绍了在Ubuntu系统中通过PyCharm SSH远程部署vLLM加速环境的过程。首先检查了Python 3.10.16、PyTorch 2.5.1+cu124、vLLM 0.7.3和ONNX Runtime 1.19.0等关键组件的版本兼容性,确认环境配置正确。文章提供了环境备份和恢复的方法,并详细说明了如何从零开始搭建满足要求的开发环境,包括Python环境创建、PyTorch安装、vLLM和ONNX Runtime的版本控制。最后给出了验证环境配置的脚本和固定环境配置的建议。对于vLLM代码较老
2025-11-25 11:21:11
146
原创 【CosyVoice2】2 :triton_trtllm 基准测试结果分析
CosyVoice 的Triton/TensorRT 版本确实具备了驱动实时数字人的能力(200ms 级延迟),处于行业领先水平。但它对算力资源极其敏感,且工程部署难度较大(需要编译 TensorRT 引擎)。落地建议:使用目录下的方案进行部署。开启以获得最低延迟(约 190ms)。在 LLM 和 TTS 之间增加智能断句算法,平衡“句子完整度”和“响应速度”。
2025-11-25 10:07:12
94
原创 【cosyvoice2 】1:pycharm ssh远程ubuntu部署vLLM加速版本
本文介绍了在PyCharm中配置SSH远程开发的方法。主要内容包括:1) 查看SSH服务监听端口的三种方法(配置文件查询、监听端口检查、本地SSH测试);2) 配置PyCharm远程SSH开发的关键步骤:首先生成SSH密钥并配置免密登录,然后在PyCharm中选择Key pair验证方式指定私钥文件;3) 在远程解释器、部署配置和终端中复用SSH配置的具体操作流程。文章提供了详细的命令行操作和图形界面配置说明,适用于Windows和Linux/macOS系统,帮助开发者实现PyCharm与远程服务器的无缝连
2025-11-23 22:28:22
208
原创 【agent】AI 数字人构建15:GPT5的TTS 选型分析
本文针对数字人TTS选型提出三大关键指标:流式首包低延迟(<250ms)、强可控表达能力、稳定的说话人一致性。根据应用场景推荐:交互型数字人首选CosyVoice2(首包150ms)和XTTS-v2(多语言克隆);影视配音推荐IndexTTS2(情绪表现强)。建议采用多引擎分层架构,实时对话用CosyVoice2,高表现需求用IndexTTS2重渲,并配合文本切片、角色缓存、推理加速等工程优化方案,实现低延迟交互与高质量输出的平衡。
2025-11-23 21:13:47
273
原创 【chatai】第一个vue项目编译运行
文章摘要: 该项目是一个基于Vue 3的语音聊天应用前端,需要配合FunASR后端服务使用。关键要点包括: 开发环境配置:必须使用Volar插件(现名Vue Official)并禁用Vetur插件以避免冲突 运行方式: 开发模式:npm run dev(热重载) 生产部署:npm run build(生成dist目录) 核心功能流程: 音频采集:16kHz单声道PCM格式 数据传输:通过WebSocket发送base64编码音频到ws://localhost:8080/chat 消息格式:支持chat.vo
2025-11-23 20:45:26
132
原创 【TTS】2025.3: SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System及c++代码
SupertonicTTS:面向实时数字人的高效语音合成方案 SupertonicTTS是一种专为低延迟场景设计的语音合成系统,其核心优势在于极快的推理速度(RTF 0.001-0.015)和简洁的架构。该系统采用语音自动编码器将音频压缩为低维潜在向量,配合Flow Matching技术实现2-5步快速推理,无需自回归解码。虽然当前版本仅支持英文且缺乏原生流式接口,但其超快的整句生成速度(1秒语音仅需10ms)使其仍可通过分块处理实现伪流式效果。对于3D数字人应用,该系统能显著降低TTS延迟,简化部署流程,
2025-11-23 00:50:01
166
Creating Android Applications: Develop and Design 源码
2014-04-16
openssl-OpenSSL_1_1_1-stable.7z
2020-07-04
nexus5-cm11 提取的boot.img
2015-03-30
moto MB865 ROOT 工具包
2014-03-28
DX910-SW-99002-r3p2-01rel1.tgz
2015-09-01
usb转串口适用于win8/8.1/10
2015-08-02
nexusd5 android5.0 型号LRX210 ROOT所需文件打包
2014-11-23
Pastry: Scalable, Decentralized Object Location, and Routing for Large-Scale P2P
2025-06-17
srs-ingest-helper
2025-06-17
Whole Tomato Visual Assist X 2023.1 v10.9.2476.0 (19 Jan 2023)
2023-05-28
vs2022 visual assist x10.9.2451.0 by piaopyun/oledlg
2022-09-23
VS2022 VISUAL ASSIST X 小番茄 v10.9.2435.0 VA_X_Setup2440_0.exe
2022-02-25
[FLV 解析工具]FLV_UI_Parse.exe
2021-10-08
【右键菜单直接修改工具】shmnviewRightMenuModiy.zip
2021-10-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅