自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(90)
  • 收藏
  • 关注

原创 【日常码农工作记录】windows conda环境 迁移 到 linux

本文记录了将Windows Conda虚拟环境迁移到Linux系统的过程。主要问题是由于系统差异导致部分包版本信息格式不兼容,特别是Windows路径格式的包引用(如Bottleneck@file://路径)。解决方法是通过pip show命令查询真实版本号,将所有非标准格式修改为标准格式(如Bottleneck==1.4.2),生成规范的requirements.txt文件。最终使用pip install -r requirements.txt在Linux系统成功重建相同环境。该方案有效解决了跨系统环境迁

2026-02-27 11:38:48 284

原创 【音频】记录潜在有用信息:Qwen3-TTS、Qwen3-ASR 与 Qwen3-ForcedAligner

我们已将完整模型家族——VoiceDesign(语音设计)、CustomVoice(定制语音) 和 Base(基础克隆)——全部开源,为开源社区带来SOTA的顶尖语音合成质量。✅ 高精度对齐:Qwen3-ForcedAligner 提供词/短语级时间戳(11 种语言),精度超越 MFA/CTC/CIF 等传统方案。• 魔搭 ModelScope:https://modelscope.cn/collections/Qwen/Qwen3-ASR。✅ 抗噪能力强:嘈杂环境、多人对话、甚至唱歌🎤都能稳稳识别。

2026-02-02 16:24:49 336

原创 【视觉多模态】基于视觉AI的人物轨迹生成方案 三

Grok-4 改进流程:监控视频->时间对齐帧提取->检测/裁剪(YOLO+OpenPose)->轨迹跟踪(SORT/BoT)->多摄像头时空关联(Kalman滤波)->提取多模态特征(ArcFace人脸+OSNet ReID+GEI步态能量图)->融合嵌入。豆包 流程:监控 -> 二维图 -> 时间戳对齐 -> 人脸裁剪、人物裁剪 -> 多摄像头人脸(物)图关联 -> 人脸(物)2D to 3D -> 人脸(物)3D模型静态编码 -> 连续帧进行人体姿态编码。

2026-01-30 09:27:19 713

原创 【视觉多模态】基于视觉AI的人物轨迹生成方案 二

本文探讨了基于视觉AI的人物轨迹生成方案中的环境依赖问题。文章首先回顾了前期已完成的人脸检测、裁剪、对齐、特征提取等流程,指出当前面临的环境依赖冲突问题。通过分析各环节所需依赖包(如facenet_pytorch、insightface、mediapipe、milvus等)及其版本冲突情况,提出需要建立多个虚拟环境并解决环境间交互问题。文章还记录了安装过程中遇到的protobuf版本冲突问题,并最终明确了后续流程:从128维人脸向量封装开始,经过队列传输、向量数据库存储、相似性搜索,最终实现2D坐标到3D空

2026-01-22 16:51:35 517

原创 【视觉多模态】基于视觉AI的人物轨迹生成方案 一

本文提出基于视觉AI的人物轨迹生成方案,使用Yolo-World v2提取视频帧中人物后,重点阐述人脸特征向量提取流程。通过SFace模型实现人脸特征提取,包括图像预处理(112x112尺寸调整、RGB转换、归一化)、模型推理和向量归一化。测试结果显示成功输出128维归一化特征向量(模长≈1)。文章指出当前方案的三个待完善点:1)需补充身形/衣着识别模型;2)需增加人脸检测和裁剪预处理步骤;3)建议完整流程应包含人脸对齐和标准化步骤。典型流程应为:原始图像→人脸检测→裁剪→对齐→标准化→SFace提取→51

2026-01-12 18:54:25 360

原创 【视觉多模态】- 3D建模尝试 III(室内静态多视角,建模成功)

摘要 本文记录了3D建模的多次尝试与最终成功案例。前期在动态广场和静态房间场景下建模均失败,主要由于动态物体干扰和视角重叠不足导致特征匹配失败。随后转向静态多视角室内数据集,使用Replay Dataset中64帧间隔1秒的静态场景图像,通过COLMAP流程(稀疏重建、稠密重建、表面重建)首次实现3D建模。进一步优化时,将样本量扩充10倍至640帧(间隔0.1秒),继续执行特征提取与匹配步骤。实验表明,静态场景配合高重叠视角可有效提升建模成功率,但模型精度仍需改进。

2026-01-07 16:44:44 889 1

原创 【视觉多模态】- 3D建模尝试 II(新数据调研与尝试失败)

本文总结了3D建模过程中的失败经验与改进方向。首次建模失败主要源于人员密集导致特征点匹配困难,以及动态物体干扰点云初始化。作者测试了多种解决方案,包括精细化遮罩、AI背景修复和增加图像数量,但效果有限。通过分析开源数据集发现ScanNet更适合3D建模实践,其提供RGB-D序列和完整标注。基于ScanNet数据的建模尝试仍失败,生成模型质量差,推测原因包括图像重叠度不足和场景动态变化。未来需进一步探索图像采集条件对建模成功的关键影响,特别是静止场景和高重叠度图像的要求。

2026-01-07 09:45:25 785

原创 【视觉多模态】- scannet 数据的 Ubuntu 百度网盘全速下载

本文记录了在Linux系统下使用BaiduPCS-Go工具登录百度网盘并下载文件的过程。首先通过官方GitHub下载并安装BaiduPCS-Go工具,但在尝试账号密码登录时多次遇到"系统繁忙"错误。随后改用网页端获取BDUSS Cookie值的方式成功登录。针对下载速度慢的问题,提供了两种下载命令:普通模式(1.39M/s)和全速下载模式(使用32线程)。最终完成文件下载并解压。整个过程详细记录了从安装到成功下载的完整步骤,特别解决了登录失败和下载速度优化的问题。

2025-12-31 17:38:07 239

原创 【视觉多模态】- 3D建模尝试 I (广场3D建模,失败)

摘要:本文记录了使用Wildtrack Dataset广场监控视频进行3D建模的失败尝试。该数据集包含7个同步校准的高清摄像头和精确的3D行人坐标标注,但实际操作中发现动态人物过多导致特征匹配失败,剔除人物又造成特征不足,建模过程耗时且效果不佳。作者采用SfM(运动恢复结构)流程从2D视频帧生成稀疏点云,但日志显示多次图像注册失败,建议后续选择人流量较少的监控视频作为建模起点。

2025-12-31 10:58:56 1007

原创 【视觉多模态】- PnP(Perspective-n-Point)问题 与 多视角三角化

摘要:PnP(Perspective-n-Point)和多视角三角化是2D到3D映射的关键技术。PnP通过已知3D-2D点对应关系求解相机位姿,确定相机在3D空间中的位置和姿态,而非直接映射2D点到3D坐标。多视角三角化则通过多个摄像头在同一时刻对同一物体的2D观测,融合为3D世界坐标信息。两者共同解决了从2D图像重建3D场景的问题,在人员轨迹生成等项目中具有重要应用。

2025-12-25 16:42:20 344

原创 【视觉多模态】- 基于视觉的人(车)轨迹生成方案调研(二)

本文调研了基于视觉多模态的机场人员轨迹生成方案,重点分析了3D建模与轨迹呈现技术。商业闭源的Pixel2Geo引擎可实现厘米级精度的实时地理坐标映射,而开源替代方案如OpenSfM+COLMAP组合需离线处理。在3D建模方面,推荐Meshroom、OpenMVG等高精度重建工具,以及新兴的PartCrafter单图建模方案。针对轨迹生成,EasyRet3D、SDNet等技术能解决多视角融合和遮挡问题。建议根据实际需求选择技术路线,平衡精度与实时性要求。

2025-12-23 15:02:02 898

原创 【众包 + AI智能体】AI境生态巡查平台边防借鉴价值专项调研——以广西边境线治理为例

构建“政府监管+企业技术+公众参与”的三元协同体系,通过API接口打通河湖长办公室、环保、城管等9大部门数据链路,实现“发现异常-智能派单-处置反馈-结果核验”的全流程闭环管理。针对公众参与设计轻量化入口,市民通过微信公众号即可完成“拍照+定位”的异常线索上报,平台通过AI初筛(排除无效信息)+专员复核的机制,将公众参与有效率从传统模式的不足5%提升至32%。这种模式既激活了社会治理资源,又通过多方联动降低了部门推诿概率。

2025-12-15 16:28:30 708

原创 【众包 + AI智能体】全球“AI+众包”智能体平台业务类型与发展前景分析

全球“AI+众包”智能体平台市场呈现爆发式增长,预计2025年规模突破10亿美元,中国市场占比50%。平台基于人机协同深度形成五大业务梯度:纯人模式(15%)、0.75人模式(30%)、半人模式(35%)、0.25人模式(18%)和全自动模式(2%)。该模式通过AI与人类最优组合实现降本增效与质量升级,商业模式从单一佣金转向多元收益体系。2030年全球市场规模预计超100亿美元,中国占比将达60%,增长动力来自技术突破、场景需求和生态协同。未来需突破技术替代瓶颈、数据安全等制约因素,聚焦垂直领域和跨境市场。

2025-12-15 16:26:08 889

原创 【众包 + AI智能体】全球_AI+众包_智能体平台全景图:超越网易有灵的创新商业模式

**AI+众包智能体平台**是融合"人工智能+人类智能"的新型协作平台,通过**人机协同模式**完成任务,兼具效率与质量优势。**市场规模**:2025年全球AI众包市场突破10亿美元,年增长率50%+;中国市场占比约50%,达500亿元人民币。**典型代表**:网易有灵(中国)、Amazon Mechanical Turk(美国)、Scale AI(美国)、MuleRun(全球)

2025-12-15 16:24:56 2015

原创 【码农日常】- docker安装时的鬼魅‘your-proxy’

摘要 本文记录了Docker安装过程中常见的"your-proxy"报错问题。作者发现该问题源于~/.docker/config.json配置文件中的代理设置,文件中默认配置了无效的代理地址"http://your-proxy:port"。这个配置会导致Docker在安装或运行时出现连接问题。文章提供了该配置文件的示例内容,帮助开发者快速识别和解决此类代理配置问题。

2025-12-12 10:21:55 161

原创 【docker安装部署】- 一个可用的Docker 镜像配置 和 DNS配置

本文分享了Docker安装部署的两个关键配置:1)镜像配置,通过在/etc/docker/daemon.json中添加DaoCloud和1ms的镜像源加速下载;2)DNS配置,建议修改/etc/systemd/resolved.conf文件,移除8.8.8.8,保留114DNS或改用阿里云DNS(223.5.5.5/223.6.6.6)。这两个配置解决了作者长期遇到的Docker安装卡顿问题,使安装过程更加顺畅。(99字)

2025-12-10 17:47:23 289

原创 【众包 + AI智能体】网易有灵众包与有灵智能体平台

网易有灵众包与智能体平台是网易伏羲旗下的人机协作系统。有灵众包提供数据标注等兼职任务,用户通过手机APP接单赚取积分(100分=1元),适合个人灵活就业;智能体平台则基于AOP框架,实现AI与人类智能体的深度协作,支持团队创业和技术开发者API接入,提供更高阶的赚钱模式。两者结合形成从数据采集到模型应用的闭环,平台具备任务自动拆解、智能调度等功能,支持规模化运作,但需注意本地模型部署与商业成本的平衡。

2025-12-10 13:46:10 2302

原创 【图文多模态自动标注】- 技术路线与开源项目调研

本文提出了一种基于"剔除-填补"等效性的图文多模态自动标注技术方案。该方案采用三阶段流程:1)使用Grounding DINO+SAM2组合进行物体识别与分割;2)通过LaMa或Stable Diffusion Inpaint进行精准剔除与背景填补;3)利用ViT-L/14 DINOv2等模型校验填补效果。开源项目Grounded-Segment-Anything整合了检测、分割和修复全流程,在48G RTX4090等高端硬件上可流畅运行。相比直接生成,该方法通过逆向操作实现了更精准的图

2025-12-09 18:25:45 1140

原创 【3D标注】- Unreal Engine 5.7 与 Python 交互基础

本文介绍了在Unreal Engine 5(UE5)中使用Python进行3D标注开发的方法。主要内容包括:1) UE5提供了实验性的Python API接口,包含超过10000个函数;2) 详细说明了4种执行Python代码的方式:通过OutputLog控制台执行脚本或单句代码、使用Tools工具菜单、以及通过UnrealEditor-Cmd.exe命令行工具。文章还指出虽然Python接口功能强大,但目前仍处于实验阶段,尚未达到商用成熟度。这些方法为开发者提供了在UE5中实现3D标注和虚拟化开发的多种技

2025-12-09 15:28:01 428

原创 【3D标注】- 世界模型样本标注【配完整源代码】

本文提出了一套在Windows环境下采集3D虚拟世界交互行为数据的方案。该方案通过监听指定窗口的键鼠操作,生成结构化JSON标注文件,用于构建多模态交互行为数据库。方案明确了9项核心采集标准,包括环境多样性、交互丰富性、操作同步精度等要求。调研了4个主流开源强化学习平台(Unity ML-Agents等)的适用性,并开发了基于Python的录制系统,可同步捕获屏幕视频和输入事件,确保时间偏差小于100ms。系统支持自定义分辨率(≥2560×1440)和帧率(≥24fps),满足机器学习对数据质量的一致性要求

2025-12-05 14:44:00 771

原创 【音频标注】- 大模型部署资源极致利用方案尝试(一)

本文探讨了大模型部署资源极致利用方案,重点分析了KTransformers和Llamafile两种工具。KTransformers通过CPU-GPU异构计算优化LLM推理,支持多种模型但仅限文本处理。Llamafile提供一键部署方案,将模型打包为可执行文件,支持64种涵盖文本、代码、多模态等任务的模型。研究发现当前框架对1.58bit动态量化模型支持有限,建议进一步研究KTransformers、Unsloth等工具以提升GPU利用率。文章还对比了不同量化方案(如Q5_K_M/Q5_K_S)在资源优化中的

2025-12-03 11:57:08 207

原创 【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署(五)

本文记录了在Ubuntu 24.04系统上部署deepseek-R1 1.58 Bit模型的过程。重点解决了CUDA驱动与系统版本的兼容性问题,详细说明了CUDA 12.5工具包的安装步骤,包括系统更新、旧版本清理和正确安装方法。文章还提供了完整的开发环境配置(Python 3.11.14、Torch 2.9、flash-attn 2.8.3等),并分享了两种模型调用方式:直接运行脚本和通过端口暴露服务。最后给出了权限问题的解决方案和关键注意事项,强调从驱动到系统的严格匹配要求。

2025-12-01 18:12:39 595

原创 【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署(四)

本文记录了在Docker容器中部署deepseek-R1 1.58Bit大模型的过程。作者首先清理了无关Docker容器,新建容器并挂载必要路径,但在安装Anaconda和构建虚拟环境时遇到代理配置错误。通过排查发现环境变量中的无效代理设置,清除后解决了apt更新问题。随后尝试安装NVIDIA驱动535版本以支持CUDA 12.1,但出现"Failed to initialize NVML"错误。文中详细记录了问题定位和解决步骤,包括代理清除、驱动安装等关键操作,为类似环境下的AI模型部

2025-11-30 10:57:42 782

原创 【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署(三)

【摘要】本文详细记录了KTransformers高性能AI推理框架在Ubuntu服务器上的部署过程。面对CUDA路径识别异常、Python头文件缺失、C++扩展编译失败等多项技术挑战,通过系统性环境修复(安装Python开发包、显式设置CUDA路径)、手动编译策略(进入源码目录构建CMake)、智能安装优化(禁用依赖检查)等创新解决方案,成功构建了支持RTX 4090 GPU加速的推理环境。最终实现了3-5倍的推理速度提升,支持百亿参数模型的高效部署,建立了包含分层权重加载和CPU-GPU混合计算的企业级A

2025-11-26 15:29:15 855

原创 【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署(二)

本文介绍了基于Docker部署DeepSeek-R1大模型的具体过程。首先阐述了显卡驱动、CUDA Toolkit等基础概念及其在宿主机和容器中的层级关系。然后详细记录了部署步骤:包括创建新Docker容器、处理flash_attn安装包、解决Torch版本冲突等问题。文中特别指出AutoDL环境下持久化存储的特殊性,并提供了虚拟环境迁移和假nvcc脚本的解决方案。最后描述了ktransformers的安装过程,以及在遇到问题时采取的容器重置措施。整个过程展现了深度学习模型部署中的典型挑战和应对方法。

2025-11-25 16:36:44 843

原创 【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署(一)

本文介绍了DeepSeek-R1满血版1.58Bit模型的落地部署过程。采用Unsloth+KTransformer方案进行动态量化,预计占用显存10G-16G,内存约60G。部署中遇到flash-attention下载中断、GCC版本过高、CUDA版本冲突等问题,通过软链接解决libcudart缺失、降级GCC至12版本等方式处理。最终因CUDA版本冲突,建议采用Docker方案实现多版本共存。整个过程详细记录了环境配置、报错分析和解决方案,为类似大模型部署提供了参考经验。

2025-11-18 11:52:29 479

原创 【视觉多模态】- 基于视觉的人(车)轨迹生成方案调研

摘要:本文提出一套基于视觉的嫌疑人(车)轨迹推演系统,通过视频结构化和以图搜图技术实现目标追踪。系统首先利用VideoPipe对海量监控视频进行结构化处理,提取目标特征构建数据库;然后通过特征向量比对实现快速目标检索;最后结合时空信息和Video-Analyzer深度分析生成轨迹报告。方案核心在于将非结构化视频数据转化为可查询的结构化数据,关键技术包括目标检测、特征提取和相似度计算。系统难点在于完美的跨帧特征构建和相似度距离定义,但为海量视频检索提供了高效解决方案。

2025-11-04 17:29:40 1190

原创 【码农日常】万能的huggingface镜像中国站点

为解决huggingface模型下载问题,推荐使用国内镜像站点hf-mirror.com。通过在终端设置环境变量export HF_ENDPOINT=https://hf-mirror.com,成功解决了whisper X模型和扩散模型下载卡顿的问题。该镜像站为国内用户提供了稳定高效的模型下载服务。

2025-11-03 18:01:16 196

原创 【金融】- pdfplumber:从 pdf 到 md

【金融】- pdfplumber:从 pdf 到 md

2025-10-18 04:45:00 179

原创 【金融】- LlamaParse:多模态pdf解析【缺APIKEY】

【金融】- 基于 pdf 一步步构建知识图谱【一,LlamaParse,失败】

2025-10-17 04:45:00 411

原创 【音频标注】- 音频样本分析

【音频标注】- 音频样本分析

2025-10-16 04:45:00 1572

原创 【金融】- 工具组合调研:基于pdf构建知识图谱

【金融】-工具组合调研:基于pdf构建知识图谱

2025-10-15 04:45:00 585

原创 【挖掘】- 样本质量诊断之样本熵

多变量滚动样本熵(固定时间区间滚动计算) 样本熵的计算涉及一段时间区间的时间序列,因此并不是每个样本对应一个熵值,而是一段时间区间的时间序列数据(二维数据表)对应一个熵值。为了每个样本有一个值,常用的方法是进行固定时间窗口的滚动计算。重要参数有:窗口长度 (Window Size)​、滑动步长 (Step Size)​、样本熵参数 (m, r)​。

2025-10-14 11:33:21 1311

原创 【音频标注】- 音频标注开源工具 Label Studio 安装教程

音频标注开源工具 Label Studio 安装教程

2025-10-14 09:08:01 644

原创 【码农日常】ERROR: No matching distribution found for graph-maker

码农日常

2025-10-14 04:45:00 207

原创 【码农日常】- 断电重启 ZeroTier 失效

算法工程师日常排bug:zerotier重启。

2025-10-13 04:45:00 660

原创 【旅游+AI】演员变景区NPC(旅游价值信息)

【旅游+AI】有效IP:自带流量的景区艺人

2025-10-12 04:45:00 392

原创 【金融】- 10月11日美股Flush复盘-记录关键时刻的价值信息

【金融】- 10月11日美股Flush复盘-记录关键时刻的价值信息

2025-10-11 19:00:00 499

原创 【音频标注】- 音频标注项目调研

【 音频标注】- 音频标注项目调研

2025-10-10 04:45:00 1093

原创 【金融】- findpapers:论文搜索与下载工具

金融 - findpapers:论文搜索工具

2025-10-09 04:45:00 748

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除