- 博客(3553)
- 资源 (147)
- 收藏
- 关注
原创 【WSL2】关闭hyperv后如何起启用mirrored模式
从你执行的命令结果来看,。但请放心,这并不影响你运行 WSL2。正如之前提到的,WSL2 只需要底层的“虚拟机平台”功能,而不强制要求开启这个完整的“Hyper-V 管理平台”。以下是为你整理的的详细设置步骤,以及针对你 VPN 冲突问题的深度优化方案。
2025-12-23 15:46:11
71
原创 【html】 后端服务支持但chrome无法下载到文件
这个截图,而且和你后端/网关都。,而是当成了一个,所以。下面我结合你这张 Network 截图,逐条解释“为什么会这样”以及“怎么一行代码修好”。
2025-12-23 15:44:37
122
原创 【docker】代理服务器导致无法push
在 Docker 环境中,如果配置了错误的代理(Proxy),会导致 Docker 引擎在尝试连接镜像站(如阿里云、清华源)时,请求先发给了一个无效的代理服务器,代理服务器连接不上目标,就会返回。
2025-12-23 12:13:24
53
原创 【docker】moviepy:pic-to-vid-app:latest镜像启动并运行
一跑,你就应该能看到 uvicorn 的启动日志(比如 “Uvicorn running on。跑起来,你很快就能看到到底是“没启动”还是“端口没映射”还是“程序启动报错”。看不到就说明应用没启动成功,日志会直接告诉你缺什么模块/路径不对/权限问题等。而你的 compose 文件(如果有)可能用的是第三个名字。,所以没有运行中的 compose 服务,自然 logs 没输出。你刚才 build 的镜像是。所以建议你统一:要么全部用。
2025-12-23 09:24:07
41
原创 【docker】python:3.11-slim的镜像制作
由于你的机器是 16 核,apt和pip可能会启动 16 个线程并行下载和安装。这会瞬间耗尽 2G 内存。建议:在Dockerfile的# 限制 apt 的并发连接数如果这次成功了,最后会显示。请告诉我它卡在哪一行(比如),我能帮你判断是网络没通还是阿里云在排队。
2025-12-23 09:10:21
52
原创 【AIGC】ViMax:3: 如何借鉴pipeline 生成剧本
你写好了剧本,它负责“导演+分镜+出图出视频”。:你只有点子,它先当编剧写出分场剧本,再逐场调用 Script2Video。:你给超长文本,它先压缩、抽事件、做RAG找依据、抽场景并生成剧本,还要跨场景做角色一致性,再交给 Script2Video。如果你愿意,我可以按你常用的 AIMV 工作流,给你一个**“歌词→Event→Scene→Screenplay(script字符串)”**的最小可跑 Prompt/数据结构(直接能喂 ViMax 的。
2025-12-21 01:00:00
34
原创 【AIGC】ViMax:2:项目入口、配置、技术报告
问题ViMax 解法LLM 处理不了长剧情角色、场景一致性差多机位空间错乱画质不稳定生成不可控多 Agent 职责划分你 AIMV 系统若结合这些技术,将会直接对标 ViMax 级别的架构。
2025-12-20 01:00:00
37
原创 【AIGC】ViMax:1: 解决痛点及UV环境配置
它很像一条“视频处理(抽帧/分镜/剪辑) + LLM/LangChain(理解/生成) + 向量检索Faiss(RAG/素材匹配) + 网络调用(多模型/网关/流式) + 结构化配置(pydantic)”的工作流。如果你把或项目要实现的核心功能(比如:视频分镜→生成分镜文案→检索素材→合成视频?)贴一小段,我可以按你的实际业务,把这些库进一步映射到“每一步会用到哪些库”。
2025-12-14 15:59:59
121
1
原创 【AIGC】侧脸引起的AIGC 角色一致性崩坏
罪魁祸首是in profile(侧颜)。“不要画 90 度侧脸,除非你能接受换人。请在 JSON 里把它改成,脸就回来了。
2025-12-11 20:15:21
111
原创 【Paper2Slides】3:核心流程:四阶段、状态管理
分快速测试模式和正常模式的结果,避免互相干扰。 get_config_dir: 在模式目录下,根据具体的配置参数创建更细化的子目录。 输入: 模式目录、配置字典 config。 逻辑: 解析 config 中的关键参数(例如 output_type, style, slides_length),生成一个描述性的目录名(例如 slides_academic_medium)。 输出: .../mode/slides_academic_medium/ 作用: 为每一种独特的配置组合创建独立的目录,方便用户对比不同
2025-12-11 20:12:23
89
原创 【Paper2Slides】2:图片生成工作逻辑
style_ref_image 作为风格参考图直接传递给底层图片生成模型使用,确保幻灯片视觉风格统一。该变量包含第二张幻灯片的Base64编码图像数据和强制一致性指令,在生成后续幻灯片时作为首要参考。模型同时接收视觉信息和"STRICTLY MAINTAIN..."文本指令,强制保持背景色、强调色、字体等元素的一致性,从而实现整个演示文稿的视觉连贯性。
2025-12-10 14:53:56
86
原创 【Paper2Slides】1:提示词分析:图片生成、内容规划、论文提取
这个过程就像一个编辑或设计师在制作演示文稿前,先规划好每一页应该放什么标题、什么文字、以及配上哪张图或哪个表格。这个 JSON 计划是。
2025-12-10 11:56:38
151
原创 【Docker 】 本地缓存PyTorch 和 NVIDIA 依赖包
只用【方案一】就足够好了。虽然 6MB/s 下载 2GB 需要点时间(大约 5-10 分钟),但加上后,只要下载成功一次,这辈子都不用再下载了,哪怕你改了 Dockerfile 的其他地方,这一层也会复用本地磁盘上的文件。修改,把那段RUN命令改成带有的版本,然后去掉。
2025-12-04 15:42:45
147
原创 【huggingface】docling 模型下载
目录下,然后修改 Dockerfile 屏蔽下载,修改 docker-compose.yml 挂载进去。也降级,降到一个兼容 Numpy 1.x 的版本(通常 4.10.x 或更早的版本就可以)。(注意:我加上了 headless 版本,以防万一你环境里装的是无头版,这两个最好保持一致)如果上面的命令执行完没有报错,或者只是报了一些无关痛痒的警告,那么你的环境基本就修复了。既然你是在搞 SurfSense 的 Docker 部署,(这是默认路径),把里面的东西打包或者直接复制出来。
2025-12-04 11:14:33
85
原创 【HuggingFace】模型下载:sentence-transformers/all-MiniLM-L6-v2
不需要纠结git-xet。brewgit-xetgit clone请使用以下。
2025-12-04 10:40:22
202
原创 【win11】ics服务和53端口
(base) PS C:\Users\zhangbin> wsl --shutdown(base) PS C:\Users\zhangbin> notepad $env:USERPROFILE.wslconfig(base) PS C:\Users\zhangbin> netstat -ano -p udp | findstr :53UDP 0.0.0.0:53 : 4924UDP 0.0.0.
2025-12-04 08:38:21
548
原创 【dify】gemini bananpro 的生图输出映射为python代码
根据你提供的输入数据和需求,你的主要目标是将 Dify 节点中的参数名(arg1arg2)映射为更有意义的变量名(textfiles),并确保代码能正确解析arg2中包含的文件信息。
2025-12-02 10:43:49
77
原创 【CosyVoice2】4「不走 Triton Server,纯 Python gRPC + JIT + vLLM」结果分析
文章摘要: 本文记录了CosyVoice语音合成项目的优化实践,成功结合JIT(TorchScript)和vLLM实现加速方案。测试数据显示音频生成耗时0.75-2.45秒,RTF(实时因子)在0.122-0.341之间。项目采用ONNXRuntime + CUDA/TensorRT EP处理声学模型,vLLM + torch.compile + CUDA Graph处理LLM部分,绕过了Triton Server直接使用Python gRPC方案。关键优化包括Flash Attention后端、编译图缓存
2025-11-25 12:27:46
115
原创 【cosyvoice2 】3:vLLM加速+旧版官方+旧模型成功运行
本文介绍了在Ubuntu系统中通过PyCharm SSH远程部署vLLM加速环境的过程。首先检查了Python 3.10.16、PyTorch 2.5.1+cu124、vLLM 0.7.3和ONNX Runtime 1.19.0等关键组件的版本兼容性,确认环境配置正确。文章提供了环境备份和恢复的方法,并详细说明了如何从零开始搭建满足要求的开发环境,包括Python环境创建、PyTorch安装、vLLM和ONNX Runtime的版本控制。最后给出了验证环境配置的脚本和固定环境配置的建议。对于vLLM代码较老
2025-11-25 11:21:11
104
原创 【CosyVoice2】2 :triton_trtllm 基准测试结果分析
CosyVoice 的Triton/TensorRT 版本确实具备了驱动实时数字人的能力(200ms 级延迟),处于行业领先水平。但它对算力资源极其敏感,且工程部署难度较大(需要编译 TensorRT 引擎)。落地建议:使用目录下的方案进行部署。开启以获得最低延迟(约 190ms)。在 LLM 和 TTS 之间增加智能断句算法,平衡“句子完整度”和“响应速度”。
2025-11-25 10:07:12
70
原创 【cosyvoice2 】1:pycharm ssh远程ubuntu部署vLLM加速版本
本文介绍了在PyCharm中配置SSH远程开发的方法。主要内容包括:1) 查看SSH服务监听端口的三种方法(配置文件查询、监听端口检查、本地SSH测试);2) 配置PyCharm远程SSH开发的关键步骤:首先生成SSH密钥并配置免密登录,然后在PyCharm中选择Key pair验证方式指定私钥文件;3) 在远程解释器、部署配置和终端中复用SSH配置的具体操作流程。文章提供了详细的命令行操作和图形界面配置说明,适用于Windows和Linux/macOS系统,帮助开发者实现PyCharm与远程服务器的无缝连
2025-11-23 22:28:22
172
原创 【agent】AI 数字人构建15:GPT5的TTS 选型分析
本文针对数字人TTS选型提出三大关键指标:流式首包低延迟(<250ms)、强可控表达能力、稳定的说话人一致性。根据应用场景推荐:交互型数字人首选CosyVoice2(首包150ms)和XTTS-v2(多语言克隆);影视配音推荐IndexTTS2(情绪表现强)。建议采用多引擎分层架构,实时对话用CosyVoice2,高表现需求用IndexTTS2重渲,并配合文本切片、角色缓存、推理加速等工程优化方案,实现低延迟交互与高质量输出的平衡。
2025-11-23 21:13:47
235
原创 【chatai】第一个vue项目编译运行
文章摘要: 该项目是一个基于Vue 3的语音聊天应用前端,需要配合FunASR后端服务使用。关键要点包括: 开发环境配置:必须使用Volar插件(现名Vue Official)并禁用Vetur插件以避免冲突 运行方式: 开发模式:npm run dev(热重载) 生产部署:npm run build(生成dist目录) 核心功能流程: 音频采集:16kHz单声道PCM格式 数据传输:通过WebSocket发送base64编码音频到ws://localhost:8080/chat 消息格式:支持chat.vo
2025-11-23 20:45:26
102
原创 【TTS】2025.3: SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System及c++代码
SupertonicTTS:面向实时数字人的高效语音合成方案 SupertonicTTS是一种专为低延迟场景设计的语音合成系统,其核心优势在于极快的推理速度(RTF 0.001-0.015)和简洁的架构。该系统采用语音自动编码器将音频压缩为低维潜在向量,配合Flow Matching技术实现2-5步快速推理,无需自回归解码。虽然当前版本仅支持英文且缺乏原生流式接口,但其超快的整句生成速度(1秒语音仅需10ms)使其仍可通过分块处理实现伪流式效果。对于3D数字人应用,该系统能显著降低TTS延迟,简化部署流程,
2025-11-23 00:50:01
128
原创 【copilot】pycharm:Github Copilot 一直初始化initializing freezes in WSL2
如果以上都不行,我们需要看看到底卡在哪一步。在 PyCharm 底部,找到的图标(或者在 View -> Tool Windows -> GitHub Copilot)。切换到Log标签页。Help->(这会打开 Windows 的文件夹,你需要找 Remote 相关的日志,或者直接在 IDE 里点 “Show Log in Editor”)。搜索[copilot]关键字。如果是ETIMEDOUT-> 网络/代理问题。如果是EACCES-> 文件权限问题(尝试。
2025-11-21 10:39:14
183
原创 【agent】AI 数字人构建14:FunASR 2-pass实时版本python中转和延迟分析
中转脚本(Middleware)是位于FunASR 服务端和3D 引擎 (UE5/Unity)之间的桥梁。它的工作流如下:音频采集:中转脚本调用 PyAudio 读取麦克风(或者接收 UE5 传来的音频流)。ASR 识别:中转脚本调用,把音频发给 FunASR Server。逻辑分发 (最关键的一步)当收到(流式结果):通过 UDP/TCP 告诉 UE5 播放“倾听/点头”动画。当收到。
2025-11-20 17:04:20
126
原创 【agent】AI 数字人构建13:FunASR 2-pass实时版本测试及系统分析
本文介绍了FunASR 2-pass语音识别服务的本地实时测试情况。在完成服务端改造后,使用修改后的C++服务端和原生客户端进行麦克风实时ASR测试。测试结果显示,系统能够准确识别并返回实时语音内容(如"你好"、"你是谁"等),同时提供分段时间戳信息。客户端日志详细记录了2pass模式下在线和离线识别结果,展示了实时语音识别的完整流程和性能表现。测试证实了改造后的FunASR服务在实时语音识别场景下的可用性。
2025-11-20 16:28:24
91
原创 【win11】funasr 7:ASR离线ONNX模型及VAD模型onnx选择及模型全部C++正确加载
您的 C++ 代码指向了 speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online 这个目录,但该目录下缺少量化版的 ONNX 模型 (model_quant.onnx)。这个脚本的核心功能是确保您指定的模型(通过 ModelScope ID 或本地路径)被转换为 C++ Runtime 所需的特定格式(ONNX、TorchScript 或 BladeDisc)。model_quant.onnx (如果您想使用量化模型)
2025-11-20 15:48:42
83
原创 【win11】funasr 8:离线大模型的onnx导出和量化
PyTorch模型转ONNX脚本执行指南 本文提供了在Windows PowerShell环境下将PyTorch模型导出为ONNX格式的详细步骤。主要操作包括:通过Python脚本调用FunASR工具包,指定模型路径和导出目录,并启用量化选项。针对可能出现的"ModuleNotFoundError"错误,给出了解决方案:设置PYTHONPATH变量指向FunASR源码父目录。完整命令行示例包含模型路径处理、环境变量设置和脚本调用方法,适用于FunASR框架下的语音识别模型转换场景。执行成
2025-11-20 01:01:50
79
原创 【agent】AI 数字人构建12:FunASR 2-pass服务分析及实时版本改造
摘要:分析FunASR 2-pass服务的关键配置差异,重点关注模型目录、语言模型和参数设置。1) 在线/离线模型配置需区分:model-dir应使用离线高精度模型,online-model-dir使用流式模型;2) lm_dir语言模型实际使用相同的FST格式n-gram模型;3) 其他参数包括端口号(默认10095)、热词路径和线程数(自动计算)需要注意一致性。建议启动时明确区分在线/离线模型目录,保持其他参数与脚本默认值或自定义需求一致,以确保2-pass服务的正确运行。
2025-11-20 00:55:11
69
原创 【win11】funasr 6:本地安装funasr调试包
FunASR源码调试中可编辑安装的关键作用 可编辑安装(pip install -e .)在FunASR调试过程中具有三个核心价值: 路径注册:解决ModuleNotFoundError问题,通过创建软链接使Python能自动识别源码路径 实时调试:-e参数启用可编辑模式,修改源码后无需重复安装,改动即时生效 依赖管理:自动解析setup.py安装所有必要依赖包 安装过程会自动下载scipy、librosa、sentencepiece等关键依赖。这种安装方式实质上是告知Python系统:将当前目录作为fun
2025-11-20 00:40:11
104
原创 【win11】funasr 5:删除conda环境并改为F盘重建
删除FunASR环境摘要 由于C盘空间有限且路径过长,我删除了之前建立的FunASR环境(funasr_py39)。该环境包含Python 3.9、PyTorch 2.5.1、CUDA 12.9等相关组件,共涉及60多个包,包括深度学习框架、数学库和GPU支持包等。通过conda命令移除整个环境,以释放C盘空间。
2025-11-20 00:35:04
53
原创 【HTTP 】 协议格式错误:but found invalid character 0x7b at index 0 of header
你当前的代码中,Content-Type: application/json 紧接着就是 {。服务器解析器没有读到空行,所以它认为 { 也是一个 HTTP Header 的名字,但 { (ASCII 0x7b) 是非法字符,所以报错。原因分析: HTTP 协议(以及 PyCharm 的 .http 文件格式)强制要求在 请求头(Headers) 和 请求体(Body) 之间必须有一个空行。这是一个非常经典的 HTTP 协议格式错误。
2025-11-18 15:06:29
84
原创 【agent】AI 数字人构建11:FunASR 2:c++工程分析及模型下载
FunASR 2是一个多功能语音处理工具套件,支持GPU/CPU部署,提供离线转写、实时听写、语音唤醒、情感识别等功能。它采用2pass架构实现边听边写的高精度识别,并支持多语言处理和语音理解任务。工程分析显示该项目基于Python构建,通过setup.py管理依赖,同时提供C++版本的WebSocket服务/客户端,已在VS2022成功编译。部署方式包括Docker和本地运行,需要配置ONNX Runtime等依赖库。最新版本还新增了语音唤醒模型和语音理解模型SenseVoice。
2025-11-11 22:28:25
318
3
原创 【win11】funasr 4:配置python依赖项并下载模型
本文记录了FunASR实时语音听写模型安装过程中遇到的问题及解决方案。首先指出运行需要torch环境,但在安装过程中出现报错。通过尝试python setup.py install和pip install torch均未成功,随后直接提取setup.py中的核心依赖项,整理出标准安装命令(包含scipy、librosa、PyYAML等基础包)和全功能安装命令(额外包含训练与LLM相关组件)。建议优先安装PyTorch后执行依赖安装命令。最后作者提供了实际使用的安装指令组合,为类似环境下的FunASR安装提供
2025-10-31 22:22:30
386
Creating Android Applications: Develop and Design 源码
2014-04-16
openssl-OpenSSL_1_1_1-stable.7z
2020-07-04
nexus5-cm11 提取的boot.img
2015-03-30
moto MB865 ROOT 工具包
2014-03-28
DX910-SW-99002-r3p2-01rel1.tgz
2015-09-01
usb转串口适用于win8/8.1/10
2015-08-02
nexusd5 android5.0 型号LRX210 ROOT所需文件打包
2014-11-23
Pastry: Scalable, Decentralized Object Location, and Routing for Large-Scale P2P
2025-06-17
srs-ingest-helper
2025-06-17
Whole Tomato Visual Assist X 2023.1 v10.9.2476.0 (19 Jan 2023)
2023-05-28
vs2022 visual assist x10.9.2451.0 by piaopyun/oledlg
2022-09-23
VS2022 VISUAL ASSIST X 小番茄 v10.9.2435.0 VA_X_Setup2440_0.exe
2022-02-25
[FLV 解析工具]FLV_UI_Parse.exe
2021-10-08
【右键菜单直接修改工具】shmnviewRightMenuModiy.zip
2021-10-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅