EngineerHuang-CSDN博客

原创【日常码农工作记录】windows conda环境迁移到 linux

本文记录了将Windows Conda虚拟环境迁移到Linux系统的过程。主要问题是由于系统差异导致部分包版本信息格式不兼容，特别是Windows路径格式的包引用（如Bottleneck@file://路径）。解决方法是通过pip show命令查询真实版本号，将所有非标准格式修改为标准格式（如Bottleneck==1.4.2），生成规范的requirements.txt文件。最终使用pip install -r requirements.txt在Linux系统成功重建相同环境。该方案有效解决了跨系统环境迁

2026-02-27 11:38:48 292

原创【音频】记录潜在有用信息：Qwen3-TTS、Qwen3-ASR 与 Qwen3-ForcedAligner

我们已将完整模型家族——VoiceDesign（语音设计）、CustomVoice（定制语音）和 Base（基础克隆）——全部开源，为开源社区带来SOTA的顶尖语音合成质量。✅ 高精度对齐：Qwen3-ForcedAligner 提供词/短语级时间戳（11 种语言），精度超越 MFA/CTC/CIF 等传统方案。• 魔搭 ModelScope：https://modelscope.cn/collections/Qwen/Qwen3-ASR。✅ 抗噪能力强：嘈杂环境、多人对话、甚至唱歌🎤都能稳稳识别。

2026-02-02 16:24:49 351

原创【视觉多模态】基于视觉AI的人物轨迹生成方案三

Grok-4 改进流程：监控视频->时间对齐帧提取->检测/裁剪（YOLO+OpenPose）->轨迹跟踪（SORT/BoT）->多摄像头时空关联（Kalman滤波）->提取多模态特征（ArcFace人脸+OSNet ReID+GEI步态能量图）->融合嵌入。豆包流程：监控 -> 二维图 -> 时间戳对齐 -> 人脸裁剪、人物裁剪 -> 多摄像头人脸（物）图关联 -> 人脸（物）2D to 3D -> 人脸（物）3D模型静态编码 -> 连续帧进行人体姿态编码。

2026-01-30 09:27:19 719

原创【视觉多模态】基于视觉AI的人物轨迹生成方案二

本文探讨了基于视觉AI的人物轨迹生成方案中的环境依赖问题。文章首先回顾了前期已完成的人脸检测、裁剪、对齐、特征提取等流程，指出当前面临的环境依赖冲突问题。通过分析各环节所需依赖包（如facenet_pytorch、insightface、mediapipe、milvus等）及其版本冲突情况，提出需要建立多个虚拟环境并解决环境间交互问题。文章还记录了安装过程中遇到的protobuf版本冲突问题，并最终明确了后续流程：从128维人脸向量封装开始，经过队列传输、向量数据库存储、相似性搜索，最终实现2D坐标到3D空

2026-01-22 16:51:35 522

原创【视觉多模态】基于视觉AI的人物轨迹生成方案一

本文提出基于视觉AI的人物轨迹生成方案，使用Yolo-World v2提取视频帧中人物后，重点阐述人脸特征向量提取流程。通过SFace模型实现人脸特征提取，包括图像预处理（112x112尺寸调整、RGB转换、归一化）、模型推理和向量归一化。测试结果显示成功输出128维归一化特征向量（模长≈1）。文章指出当前方案的三个待完善点：1）需补充身形/衣着识别模型；2）需增加人脸检测和裁剪预处理步骤；3）建议完整流程应包含人脸对齐和标准化步骤。典型流程应为：原始图像→人脸检测→裁剪→对齐→标准化→SFace提取→51

2026-01-12 18:54:25 371

原创【视觉多模态】- 3D建模尝试 III（室内静态多视角，建模成功）

摘要本文记录了3D建模的多次尝试与最终成功案例。前期在动态广场和静态房间场景下建模均失败，主要由于动态物体干扰和视角重叠不足导致特征匹配失败。随后转向静态多视角室内数据集，使用Replay Dataset中64帧间隔1秒的静态场景图像，通过COLMAP流程（稀疏重建、稠密重建、表面重建）首次实现3D建模。进一步优化时，将样本量扩充10倍至640帧（间隔0.1秒），继续执行特征提取与匹配步骤。实验表明，静态场景配合高重叠视角可有效提升建模成功率，但模型精度仍需改进。

2026-01-07 16:44:44 902 1

原创【视觉多模态】- 3D建模尝试 II（新数据调研与尝试失败）

本文总结了3D建模过程中的失败经验与改进方向。首次建模失败主要源于人员密集导致特征点匹配困难，以及动态物体干扰点云初始化。作者测试了多种解决方案，包括精细化遮罩、AI背景修复和增加图像数量，但效果有限。通过分析开源数据集发现ScanNet更适合3D建模实践，其提供RGB-D序列和完整标注。基于ScanNet数据的建模尝试仍失败，生成模型质量差，推测原因包括图像重叠度不足和场景动态变化。未来需进一步探索图像采集条件对建模成功的关键影响，特别是静止场景和高重叠度图像的要求。

2026-01-07 09:45:25 805

原创【视觉多模态】- scannet 数据的 Ubuntu 百度网盘全速下载

本文记录了在Linux系统下使用BaiduPCS-Go工具登录百度网盘并下载文件的过程。首先通过官方GitHub下载并安装BaiduPCS-Go工具，但在尝试账号密码登录时多次遇到"系统繁忙"错误。随后改用网页端获取BDUSS Cookie值的方式成功登录。针对下载速度慢的问题，提供了两种下载命令：普通模式（1.39M/s）和全速下载模式（使用32线程）。最终完成文件下载并解压。整个过程详细记录了从安装到成功下载的完整步骤，特别解决了登录失败和下载速度优化的问题。

2025-12-31 17:38:07 253

原创【视觉多模态】- 3D建模尝试 I （广场3D建模，失败）

摘要：本文记录了使用Wildtrack Dataset广场监控视频进行3D建模的失败尝试。该数据集包含7个同步校准的高清摄像头和精确的3D行人坐标标注，但实际操作中发现动态人物过多导致特征匹配失败，剔除人物又造成特征不足，建模过程耗时且效果不佳。作者采用SfM（运动恢复结构）流程从2D视频帧生成稀疏点云，但日志显示多次图像注册失败，建议后续选择人流量较少的监控视频作为建模起点。

2025-12-31 10:58:56 1010

原创【视觉多模态】- PnP（Perspective-n-Point）问题与多视角三角化

摘要：PnP（Perspective-n-Point）和多视角三角化是2D到3D映射的关键技术。PnP通过已知3D-2D点对应关系求解相机位姿，确定相机在3D空间中的位置和姿态，而非直接映射2D点到3D坐标。多视角三角化则通过多个摄像头在同一时刻对同一物体的2D观测，融合为3D世界坐标信息。两者共同解决了从2D图像重建3D场景的问题，在人员轨迹生成等项目中具有重要应用。

2025-12-25 16:42:20 350

原创【视觉多模态】- 基于视觉的人（车）轨迹生成方案调研（二）

本文调研了基于视觉多模态的机场人员轨迹生成方案，重点分析了3D建模与轨迹呈现技术。商业闭源的Pixel2Geo引擎可实现厘米级精度的实时地理坐标映射，而开源替代方案如OpenSfM+COLMAP组合需离线处理。在3D建模方面，推荐Meshroom、OpenMVG等高精度重建工具，以及新兴的PartCrafter单图建模方案。针对轨迹生成，EasyRet3D、SDNet等技术能解决多视角融合和遮挡问题。建议根据实际需求选择技术路线，平衡精度与实时性要求。

2025-12-23 15:02:02 907

原创【众包 + AI智能体】AI境生态巡查平台边防借鉴价值专项调研——以广西边境线治理为例

构建“政府监管+企业技术+公众参与”的三元协同体系，通过API接口打通河湖长办公室、环保、城管等9大部门数据链路，实现“发现异常-智能派单-处置反馈-结果核验”的全流程闭环管理。针对公众参与设计轻量化入口，市民通过微信公众号即可完成“拍照+定位”的异常线索上报，平台通过AI初筛（排除无效信息）+专员复核的机制，将公众参与有效率从传统模式的不足5%提升至32%。这种模式既激活了社会治理资源，又通过多方联动降低了部门推诿概率。

2025-12-15 16:28:30 713

原创【众包 + AI智能体】全球“AI+众包”智能体平台业务类型与发展前景分析

全球“AI+众包”智能体平台市场呈现爆发式增长，预计2025年规模突破10亿美元，中国市场占比50%。平台基于人机协同深度形成五大业务梯度：纯人模式（15%）、0.75人模式（30%）、半人模式（35%）、0.25人模式（18%）和全自动模式（2%）。该模式通过AI与人类最优组合实现降本增效与质量升级，商业模式从单一佣金转向多元收益体系。2030年全球市场规模预计超100亿美元，中国占比将达60%，增长动力来自技术突破、场景需求和生态协同。未来需突破技术替代瓶颈、数据安全等制约因素，聚焦垂直领域和跨境市场。

2025-12-15 16:26:08 920

原创【众包 + AI智能体】全球_AI+众包_智能体平台全景图：超越网易有灵的创新商业模式

**AI+众包智能体平台**是融合"人工智能+人类智能"的新型协作平台，通过**人机协同模式**完成任务，兼具效率与质量优势。**市场规模**：2025年全球AI众包市场突破10亿美元，年增长率50%+；中国市场占比约50%，达500亿元人民币。**典型代表**：网易有灵(中国)、Amazon Mechanical Turk(美国)、Scale AI(美国)、MuleRun(全球)

2025-12-15 16:24:56 2128

原创【码农日常】- docker安装时的鬼魅‘your-proxy’

摘要本文记录了Docker安装过程中常见的"your-proxy"报错问题。作者发现该问题源于~/.docker/config.json配置文件中的代理设置，文件中默认配置了无效的代理地址"http://your-proxy:port"。这个配置会导致Docker在安装或运行时出现连接问题。文章提供了该配置文件的示例内容，帮助开发者快速识别和解决此类代理配置问题。

2025-12-12 10:21:55 164

原创【docker安装部署】- 一个可用的Docker 镜像配置和 DNS配置

本文分享了Docker安装部署的两个关键配置：1）镜像配置，通过在/etc/docker/daemon.json中添加DaoCloud和1ms的镜像源加速下载；2）DNS配置，建议修改/etc/systemd/resolved.conf文件，移除8.8.8.8，保留114DNS或改用阿里云DNS（223.5.5.5/223.6.6.6）。这两个配置解决了作者长期遇到的Docker安装卡顿问题，使安装过程更加顺畅。（99字）

2025-12-10 17:47:23 298

原创【众包 + AI智能体】网易有灵众包与有灵智能体平台

网易有灵众包与智能体平台是网易伏羲旗下的人机协作系统。有灵众包提供数据标注等兼职任务，用户通过手机APP接单赚取积分（100分=1元），适合个人灵活就业；智能体平台则基于AOP框架，实现AI与人类智能体的深度协作，支持团队创业和技术开发者API接入，提供更高阶的赚钱模式。两者结合形成从数据采集到模型应用的闭环，平台具备任务自动拆解、智能调度等功能，支持规模化运作，但需注意本地模型部署与商业成本的平衡。

2025-12-10 13:46:10 2710

原创【图文多模态自动标注】- 技术路线与开源项目调研

本文提出了一种基于"剔除-填补"等效性的图文多模态自动标注技术方案。该方案采用三阶段流程：1)使用Grounding DINO+SAM2组合进行物体识别与分割；2)通过LaMa或Stable Diffusion Inpaint进行精准剔除与背景填补；3)利用ViT-L/14 DINOv2等模型校验填补效果。开源项目Grounded-Segment-Anything整合了检测、分割和修复全流程，在48G RTX4090等高端硬件上可流畅运行。相比直接生成，该方法通过逆向操作实现了更精准的图

2025-12-09 18:25:45 1160

原创【3D标注】- Unreal Engine 5.7 与 Python 交互基础

本文介绍了在Unreal Engine 5(UE5)中使用Python进行3D标注开发的方法。主要内容包括：1) UE5提供了实验性的Python API接口，包含超过10000个函数；2) 详细说明了4种执行Python代码的方式：通过OutputLog控制台执行脚本或单句代码、使用Tools工具菜单、以及通过UnrealEditor-Cmd.exe命令行工具。文章还指出虽然Python接口功能强大，但目前仍处于实验阶段，尚未达到商用成熟度。这些方法为开发者提供了在UE5中实现3D标注和虚拟化开发的多种技

2025-12-09 15:28:01 455

原创【3D标注】- 世界模型样本标注【配完整源代码】

本文提出了一套在Windows环境下采集3D虚拟世界交互行为数据的方案。该方案通过监听指定窗口的键鼠操作，生成结构化JSON标注文件，用于构建多模态交互行为数据库。方案明确了9项核心采集标准，包括环境多样性、交互丰富性、操作同步精度等要求。调研了4个主流开源强化学习平台（Unity ML-Agents等）的适用性，并开发了基于Python的录制系统，可同步捕获屏幕视频和输入事件，确保时间偏差小于100ms。系统支持自定义分辨率（≥2560×1440）和帧率（≥24fps），满足机器学习对数据质量的一致性要求

2025-12-05 14:44:00 786

原创【音频标注】- 大模型部署资源极致利用方案尝试（一）

本文探讨了大模型部署资源极致利用方案，重点分析了KTransformers和Llamafile两种工具。KTransformers通过CPU-GPU异构计算优化LLM推理，支持多种模型但仅限文本处理。Llamafile提供一键部署方案，将模型打包为可执行文件，支持64种涵盖文本、代码、多模态等任务的模型。研究发现当前框架对1.58bit动态量化模型支持有限，建议进一步研究KTransformers、Unsloth等工具以提升GPU利用率。文章还对比了不同量化方案（如Q5_K_M/Q5_K_S）在资源优化中的

2025-12-03 11:57:08 211

原创【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署（五）

本文记录了在Ubuntu 24.04系统上部署deepseek-R1 1.58 Bit模型的过程。重点解决了CUDA驱动与系统版本的兼容性问题，详细说明了CUDA 12.5工具包的安装步骤，包括系统更新、旧版本清理和正确安装方法。文章还提供了完整的开发环境配置（Python 3.11.14、Torch 2.9、flash-attn 2.8.3等），并分享了两种模型调用方式：直接运行脚本和通过端口暴露服务。最后给出了权限问题的解决方案和关键注意事项，强调从驱动到系统的严格匹配要求。

2025-12-01 18:12:39 597

原创【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署（四）

本文记录了在Docker容器中部署deepseek-R1 1.58Bit大模型的过程。作者首先清理了无关Docker容器，新建容器并挂载必要路径，但在安装Anaconda和构建虚拟环境时遇到代理配置错误。通过排查发现环境变量中的无效代理设置，清除后解决了apt更新问题。随后尝试安装NVIDIA驱动535版本以支持CUDA 12.1，但出现"Failed to initialize NVML"错误。文中详细记录了问题定位和解决步骤，包括代理清除、驱动安装等关键操作，为类似环境下的AI模型部

2025-11-30 10:57:42 783

原创【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署（三）

【摘要】本文详细记录了KTransformers高性能AI推理框架在Ubuntu服务器上的部署过程。面对CUDA路径识别异常、Python头文件缺失、C++扩展编译失败等多项技术挑战，通过系统性环境修复（安装Python开发包、显式设置CUDA路径）、手动编译策略（进入源码目录构建CMake）、智能安装优化（禁用依赖检查）等创新解决方案，成功构建了支持RTX 4090 GPU加速的推理环境。最终实现了3-5倍的推理速度提升，支持百亿参数模型的高效部署，建立了包含分层权重加载和CPU-GPU混合计算的企业级A

2025-11-26 15:29:15 856

原创【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署（二）

本文介绍了基于Docker部署DeepSeek-R1大模型的具体过程。首先阐述了显卡驱动、CUDA Toolkit等基础概念及其在宿主机和容器中的层级关系。然后详细记录了部署步骤：包括创建新Docker容器、处理flash_attn安装包、解决Torch版本冲突等问题。文中特别指出AutoDL环境下持久化存储的特殊性，并提供了虚拟环境迁移和假nvcc脚本的解决方案。最后描述了ktransformers的安装过程，以及在遇到问题时采取的容器重置措施。整个过程展现了深度学习模型部署中的典型挑战和应对方法。

2025-11-25 16:36:44 844

空空如也

空空如也