- 博客(3586)
- 资源 (147)
- 收藏
- 关注
原创 【AIGC】AIGC视频生成“第一阶段”:Seedance 2.0战略胜出
综上所述,Seedance 2.0之所以能够在全球AIGC视频生成领域引发“DeepSeek时刻”般的巨大震荡并实现战略层面的绝对胜出,根本原因在于其研发团队穿透了行业第一阶段对单点画质与物理运动的盲目崇拜,深刻洞察到了**“音画同步协同”与“跨镜头连贯叙事”**才是数字影视工业化生产的真正命脉。依托颠覆性的“双分支扩散变换器”底层架构创新,Seedance 2.0从根源上斩断了音画割裂的技术历史包袱;
2026-03-24 11:47:41
43
原创 【AIGC】生图:道具、角色
不同的模型由于训练数据的差异,拥有完全不同的“世界观”和数据偏好。模型 1(生成形象的高级场景)和模型 2(生成外卖盒子)在视觉理解上存在巨大差异。模型 1 的语义是正确的,而模型 2 的语义是完全错误的,这反映了模型 2 训练数据的特定偏见或错误。
2026-03-20 11:04:51
29
原创 【AIGC】四宫格1:单张图片做鸟瞰本质上是不可能的
然后我从 Windows 用 curl 推送文件过去:Ran terminal command: # 先准备好命令,等用户在 Ubuntu 上启动接收服务后再执行Write-Host “等 Ubuntu 上的接收服务启动后,执行以下命令:”Completed with input: # 先准备好命令,等用户在 Ubuntu 上启动接收服务后再执行Write-Host “等 Ubuntu 上的接收服务启动后,执行以下命令:”
2026-03-20 10:53:32
25
原创 【AIGC】四宫格图片
那个 AI 模型像是一个非常听话但缺乏常识的执行者。它为了把一段“长长的街道”塞进一个“高高的竖框”,并且填满长边,干脆把整个街道立起来了。
2026-03-19 20:58:04
35
原创 【AIGC】《送别》AI会设计一种废土感
是的,你的感觉非常准确。这组生成的场景图确实传递出一种强烈的和,完全避开了繁华的闹市。从画面来看,这些场景虽然有现代工业的痕迹(巨大的水泥高架桥墩、铁栏杆),但它们都处于一种被遗忘、被自然重新占领的状态。《送别》原词中写道:“长亭外,古道边,芳草碧连天。” 描绘的是古代典型的送客场景——离开了繁华的城郭,走到了荒凉的古道驿站。如果在现代语境下重现这种“离愁别绪”,恰好是对“长亭外古道边”最完美的现代翻译。闹市太喧嚣,装不下送别时的沉重和孤寂;
2026-03-18 21:26:27
45
原创 【AIGC】StoryMem UniVA ViMax简单对比
维度StoryMemUniVAViMax类型学术模型 (扩散模型微调)Agent 系统 (LLM + MCP 工具)Agent Pipeline (LLM 编排)核心创新记忆条件视频扩散双 Agent 对话式创作Multi-Agent 全流程自动化视频生成本地推理 (Wan2.2 A14B)API 调用 (WaveSpeed/SeedAnce)API 调用 (Veo/SeedAnce)一致性方案记忆帧 LoRA 注入MCP 工具层追踪角色参考图 + 风格传递交互方式脚本驱动批处理。
2026-03-16 18:35:19
43
原创 【AIGC】gemini和豆包用于剧本创作的对比分析
目前大模型在“逻辑/情感”与“指令/执行”两个维度的分水岭。作为你的 AI 协作伙伴,我完全认可你的这套“双引擎协作驱动”理论。下面我为你深度复盘这套逻辑,并针对你关心的“稳定性”和“流程分工”给出具体的优化建议。
2026-02-16 22:02:29
239
原创 【univa】5:web网站及让用户通过**自然语言对话**驱动后端 AI 模型来完成视频创作
本工程的编辑能力几乎全部由 AI 生成/编辑模型驱动视频编辑 → WAN 2.1 VACE-1.3B (本地) / Runway Gen-4 (API) / WAN-2.1-14B (API)图片编辑 → Seedream V4 (API)FFmpeg → 仅做拼接、切割、提帧等文件操作,不参与创意编辑。
2026-02-16 17:09:47
204
1
原创 【univa】4:图片编辑和剧本
环节调用的函数底层模型/端点角色图生成关键帧合成(角色+场景)/multi独立图片编辑工具(非主管线)/edit三个是不同的函数、不同的 API 端点、不同的用途。主管线全程用的是 Flux-Kontext-Pro,只是 Agent 工具箱里备用的一个独立图片编辑工具。
2026-02-16 16:55:25
93
原创 【univa】3:角色生成和一致性
UniVA 通过一套多阶段管线来保证生图和生视频过程中的角色一致性。先建立角色视觉锚点(参考图),再通过参考图驱动后续所有生成环节。整个机制可分为 5 个层次。系统在 Storyboard 生成阶段就从架构上将角色信息分为静态外观和动态行为"description": "纯静态外观描述 — 不包含任何动作/情绪动词"],"shots": ["static_shot_description": "纯静态构图 — 姿态、位置、表情",
2026-02-16 15:34:20
77
原创 【AUTOMV】4:提示词分析
环节对应的 Prompt 作用关键字段/目标1. 场景/视觉设计扩充故事背景,设定光影与环境2. 关键帧图片提供给文生图模型的具体描述3. 视频/相机脚本指导视频模型如何动,怎么运镜"Action""Subject"
2026-02-02 23:27:36
114
原创 【Univideo】3:Univideo 故事本生成
你现在的代码是一个很好的“导演大脑”。要加入自己的 IP,最简单的方法是在中强行写入 IP 的详细人设,并指令 LLM 围绕该人设展开剧情。LLM 会很聪明地理解这一点,并在返回的 JSON 结构中保留你的角色,同时创造新的配角。
2026-02-01 16:33:04
111
原创 【AutoMV】3:故事本引入特定角色IP
剧本通过米小圈这一角色,巧妙融合现代都市与古典意境,展现物质富足下的精神孤独。视觉设计亮点包括投影落花、焚信等隐喻,平均6.4秒的镜头节奏营造出伤感氛围。建议强化角色眼神戏和服化道对比,以花瓣作为唯一暖色点缀,突出情感核心。全片283秒的叙事完整呈现了从冷漠到接纳的情感曲线。
2026-01-31 21:04:32
118
原创 【AutoMV】2:故事本的分类
标签作用核心技术最终效果sing歌手演唱Audio-Driven Portrait (音频驱动人像)只有一张脸在唱歌,对得上歌词story叙事/空镜Image-to-Video (图生视频)画面有运镜和动态,人物不说话/不唱歌最后,系统会将这两类生成好的视频片段,按照story.json的顺序拼接在一起,并覆盖上原始的高质量音频,生成最终的 MV。这是一个逻辑严密、画面感极强的剧本。它不仅仅是在“翻译”歌词,而是在通过视觉语言“扩充”歌词。
2026-01-31 19:24:47
134
原创 【AutoMV】1:故事本的生成
本文介绍了一个基于大语言模型和音频分析的MV脚本自动生成系统。系统通过以下流程实现:首先提取歌曲的歌词和时间戳,分析歌曲结构并识别风格;然后构建Prompt调用Gemini Pro模型生成结构化JSON脚本,包含分段时间、画面描述和演唱标记;同时生成角色与风格设定文件;最后驱动并行生成画面镜头和视频片段。整个过程将创意性描述转化为可执行指令,支持通过自定义歌词文件提高生成精度。
2026-01-31 16:01:33
147
原创 【UniVA】1:统一的视频agent:智能体系统,专门用于处理复杂的视频生成、编辑和理解任务
UniVA(通用视频代理)是一个开源的下一代视频通用系统,它通过自然语言指令使您能够规划、编排和制作视频。UniVA 作为您的智能视频导演,通过主动的、代理式的工作流程与您迭代镜头和故事。fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;fill:#333;height:1em;HTTP 请求Session ID用户请求加载 plan.txt生成 JSON 计划JSON 计划。
2026-01-31 14:29:41
1043
原创 【Univideo】2:Univideo Plan Agent
此功能通过两阶段过程工作:首先,它使用视频指代分割根据给定的文本标签定位和隔离视频中的目标对象,生成仅包含该对象的分割视频。: 使用文本提示词和输入图像作为视觉参考生成短视频(约 5 秒),生成的视频将以该输入图像开始。: 根据文本提示词和角色图像列表生成基于故事的视频,方法是创建故事板、使用提供的图像作为角色、生成关键帧、创建视频片段并将它们合并为最终视频。需要文本提示词,返回一个视频。: 通过创建故事板、生成角色图像、创建关键帧、生成视频片段并将它们合并为最终视频,根据文本提示词生成基于故事的视频。
2026-01-31 14:27:15
115
原创 【AIGC】Seedream 、FLUX 、qwen 及LORA
Scene A:Anchor_A = FLUX(米小圈 + Scene A 基本语义)Scene B:Anchor_B = FLUX(米小圈 + Scene B 基本语义)注意这里的关键点👇Anchor_A 和 Anchor_B:是同一个人(米小圈)光照不同氛围不同服装不同(如果你愿意)👉 这是**“同一人,在不同场景下的稳定状态”**而不是“漂移”。校准镜头 ≠ 修复校准镜头 ≠ 回灌校准镜头 =重置身份参考系每进入一个新 Scene,就重置一次身份参考系这是。
2026-01-29 15:16:56
183
原创 【即梦4.5】测试 2:多重参考背景替换
示例提示词:结果: 生成的图像非常接近原始人物的面部结构和特征。光照方向和肤色与原图保持一致,而背景和构图则按要求进行了更新。输出看起来像是真实的实地拍摄,而不是完全合成的面孔。
2026-01-29 10:43:21
89
原创 【即梦4.5】测试 1:多重参考背景替换
在即梦(Jimeng/Seedream)模型或类似的 Dify 工作流中,模型识别“图 1”、“图 2”和“图 3”并不是依靠图像内容本身去猜,而是严格遵循。作为中间件,Dify 在调用即梦 API 之前,会确保你在界面上上传图片的顺序与生成的 JSON 数组顺序一致。数组里放图片的顺序,就是给模型“喂”图的顺序。提示词: “把图1中女人的背景替换成图2的海边,并在天空中添加两个图3的热气球。等,这进一步辅助了人类开发者的理解,但对模型而言,最关键的是它们在列表里的。在你的 JSON 输入中,
2026-01-29 00:42:34
134
原创 【android】oppo手机拷贝视频文件
oppo 至今没有一个助手,有一个助手是升级系统的有一个connect实际上是做镜像手机屏幕的当然,也能监控文件变化对于我有一个camera文件夹2000个文件导致我每次不开着手机,导出文件到pc经常会断开连接。然后如果重新connect,会到处一堆xxx(1) 这样的文件完全没有什么 断点续传、文件存在检测这样的功能可见oppo 是没有以顾客为中心啊。插入usb传输文件后,
2026-01-28 15:15:43
538
原创 【AIGC】Nano Banana Pro无法锁角色
先做“身份向量 + 漂移检测 + 阈值触发纠偏”这条轻量 C,再把 A 的多参考和 seed 固化加上。你会马上从“7~8成像 + 偶尔跑人”变成“稳定 9 成 + 很少跑偏”,而且几乎不需要训练。的字段设计(你这种工程风格会很喜欢)以及“每 N 帧检测、连续低阈值触发纠偏”的伪代码(可直接塞进你现有 pipeline)再附一套阈值怎么标定(用你已有视频跑一遍统计分布就定下来了)先做“身份向量 + 漂移检测 + 阈值触发纠偏”这条轻量 C,再把 A 的多参考和 seed 固化加上。
2026-01-20 22:05:57
185
原创 【AIGC】2025年12月13日 AutoMV: Automatic Multi-Agent System for Music Video Generation 2:论文
生成整首歌曲的音乐视频(M2V)面临着重大挑战。现有方法生成的都是简短、不连贯的视频片段,无法与音乐结构、节拍或歌词对齐,且缺乏时间上的连贯性。我们提出了 AutoMV,一个多智能体系统,可以直接从歌曲生成完整的音乐视频(MVs)。AutoMV 首先应用音乐处理工具提取音乐属性,如结构、人声轨道和时间对齐的歌词,并将这些特征构建为后续智能体的上下文输入。编剧智能体和导演智能体随后利用这些信息设计短剧本,在共享的外部库中定义角色特征,并指定摄像机指令。
2026-01-20 17:39:42
202
原创 【AIGC】2025年12月13日 AutoMV: Automatic Multi-Agent System for Music Video Generation 1:介绍
AutoMV is a training-free, multi-agent system that automatically generates coherent, long-form music videos (MVs) directly from a full-length song.AutoMV 是一个无需训练的多智能体系统,可以直接从整首歌曲自动生成连贯的长篇音乐视频(MV)。The pipeline integrates music signal analysis, scriptwriti
2026-01-20 17:01:32
114
原创 【PyCharm 】中其实是可以同时运行多个程序
是的,PyCharm 确实可以同时运行多个程序或脚本,主要通过在运行配置中勾选 “Allow parallel run” (允许并行运行) 选项来实现,这样你就可以同时启动和管理多个独立的 Python 脚本或任务。你也可以通过 “File” -> “New Project” (新建项目) 或 “File” -> “Open” (打开) 来打开多个独立的项目,每个项目在自己的窗口中运行,这提供了更隔离的开发环境。现在,你可以独立运行多个脚本,它们会出现在不同的运行/调试工具窗口中。
2026-01-13 11:15:44
848
原创 【AIGC】ViMax:5: 全自动化的“脚本到视频”生产线Script2VideoPipeline
阶段核心驱动力提示词侧重点参考信息 (Context)代码对应逻辑角色立绘属性 + 风格静态细节:五官、衣着、画风无(或仅风格)标准帧组合 + 一致性场景构建:角色站位、环境、光影角色立绘 + (可选)前一帧生成的 prompt过渡帧修正 + 保持指令修复:保留背景,替换特定物体过渡视频的截图视频生成动态 + 连贯时间变化:动作幅度、运镜、声音首帧 + 尾帧 (作为约束)这个 Pipeline 的精髓在于它没有用一套通用的 Prompt 模板,而是根据。
2026-01-07 23:20:27
163
原创 【WSL2】关闭hyperv后如何起启用mirrored模式
从你执行的命令结果来看,。但请放心,这并不影响你运行 WSL2。正如之前提到的,WSL2 只需要底层的“虚拟机平台”功能,而不强制要求开启这个完整的“Hyper-V 管理平台”。以下是为你整理的的详细设置步骤,以及针对你 VPN 冲突问题的深度优化方案。
2025-12-23 15:46:11
524
原创 【html】 后端服务支持但chrome无法下载到文件
这个截图,而且和你后端/网关都。,而是当成了一个,所以。下面我结合你这张 Network 截图,逐条解释“为什么会这样”以及“怎么一行代码修好”。
2025-12-23 15:44:37
197
原创 【docker】代理服务器导致无法push
在 Docker 环境中,如果配置了错误的代理(Proxy),会导致 Docker 引擎在尝试连接镜像站(如阿里云、清华源)时,请求先发给了一个无效的代理服务器,代理服务器连接不上目标,就会返回。
2025-12-23 12:13:24
112
原创 【docker】moviepy:pic-to-vid-app:latest镜像启动并运行
一跑,你就应该能看到 uvicorn 的启动日志(比如 “Uvicorn running on。跑起来,你很快就能看到到底是“没启动”还是“端口没映射”还是“程序启动报错”。看不到就说明应用没启动成功,日志会直接告诉你缺什么模块/路径不对/权限问题等。而你的 compose 文件(如果有)可能用的是第三个名字。,所以没有运行中的 compose 服务,自然 logs 没输出。你刚才 build 的镜像是。所以建议你统一:要么全部用。
2025-12-23 09:24:07
83
原创 【docker】python:3.11-slim的镜像制作
由于你的机器是 16 核,apt和pip可能会启动 16 个线程并行下载和安装。这会瞬间耗尽 2G 内存。建议:在Dockerfile的# 限制 apt 的并发连接数如果这次成功了,最后会显示。请告诉我它卡在哪一行(比如),我能帮你判断是网络没通还是阿里云在排队。
2025-12-23 09:10:21
288
Creating Android Applications: Develop and Design 源码
2014-04-16
openssl-OpenSSL_1_1_1-stable.7z
2020-07-04
nexus5-cm11 提取的boot.img
2015-03-30
moto MB865 ROOT 工具包
2014-03-28
DX910-SW-99002-r3p2-01rel1.tgz
2015-09-01
usb转串口适用于win8/8.1/10
2015-08-02
nexusd5 android5.0 型号LRX210 ROOT所需文件打包
2014-11-23
Pastry: Scalable, Decentralized Object Location, and Routing for Large-Scale P2P
2025-06-17
srs-ingest-helper
2025-06-17
Whole Tomato Visual Assist X 2023.1 v10.9.2476.0 (19 Jan 2023)
2023-05-28
vs2022 visual assist x10.9.2451.0 by piaopyun/oledlg
2022-09-23
VS2022 VISUAL ASSIST X 小番茄 v10.9.2435.0 VA_X_Setup2440_0.exe
2022-02-25
[FLV 解析工具]FLV_UI_Parse.exe
2021-10-08
【右键菜单直接修改工具】shmnviewRightMenuModiy.zip
2021-10-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅