点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:GIS小丸子
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
前两天和一个南通的同行蔡总约着见了一面,中间还有机会看了浙江一家做「低空+农业」的厂商的产品介绍,他们主要的卖点是「低空AI识别+数据要素」,看下来发现大家的思路都差不多,去年的时候我们已经准备在一个项目上开始将这部分功能开发上去,原型都画好很久了,但是一直由于产能有限,所以这个模块一直处于待开发的状态,看到别人已经开发出来了,总是有点焦虑的。
所以最近一段时间我一直在考虑是不是可以使用类似DeepSeek这类工具来进一步提升我们的生产能力。年初的时候和我们的技术也针对这个问题有过沟通,最初的原因是因为我们团队的一个非常不错的前端同学,因为怀孕所以退出了团队的开发,所以我们需要继续物色新的合作伙伴,但是找到一个「靠谱合适」的人实在是太难了,所以当时技术负责跟我说他自己来干前端吧,他自己平时也有一直在用Cursor类似的工具,这次的空档期就先用这些工具辅助一下。
虽然从成果上来看,质量和专业的前端开发出来的成果相比还是有一些差距,但是功能实现的都是没有问题的,所以这也让我产生了一定的兴趣,想具体了解一下用这类大模型工具来进行代码编写可能会遇到的问题有哪些。
比如最近3D GS很火,在我的公众号后台,明显感觉今年咨询这类问题的需求变多了,所以前两天去南通蔡总那边交流的时候,看到他们闲置了很多很好的机器,听说他们还专门建了一个跑模的机房,我当时就建议他们可以考虑尝试一下做3DGS的建模,当前市面上这类能力还是处于供小于求的情况,真正能够把3DGS跑通用起来的团队还不多。
另外一个方面,我比较感兴趣的点就是是不是可以通过使用DeepSeek来将PLY格式的3DGS的数据转换成为3D Tiles层级瓦片,虽然最近使用DeepSeek用的比较多,但是用它来生成代码还没怎么尝试过。
我写的第一个版本的提示词是:
但是从整体输出的代码上来看,简单配置运行一下,发现一些很直观的问题:
1、引入了一些NPM中不存在的类库;
2、引用了一些没有实现的空函数;
3、直接引用一些没有实现的函数;
4、对KHR_Gaussian_Splatting这个扩展缺乏必要的了解,配置项也都是瞎写的;
5、存在假设某一个模块已经实现,然后引用的问题;
所以我就打开了他的在线搜索功能,让他理解了一下3D Tiles 1.1是如何支持3D Gaussian Splatting的,结果他给出了很好的答案,而且看推理路径,他的整个理解还是比较专业的。
但是这个在线搜索经常不能用,所以后面转换了个思路直接把KHR_Gaussian_Splatting这个文件下载下来作为附件传给DeepSeek帮助他来理解,并针对上面的问题重新更新了一下提示词。
看了一下实现,这次有了一定的进步,开始尝试通过空间采用的方式来进行LOD的重建,同时对KHR_Gaussian_Splatting这个规范要求也有了一定的理解,但是虽然我已经严格的在提示词中要求了他不要引用不存在的类库,但是他依然还是会自己创作,引入一个不存在的类库。
为此,我同时也换了Cursor来使用一下,Cursor基于的是Claude3.5,总体使用下来的一个感受是,Claude也存在会引入一些不存在的库,但是可以通过Cursor提供的一些修复的工具来自动修复一些不合理的引用:
1、比如它这边导入了@Cesium/Engine下的Tile3D和Tileset3D,但是Tile3D并不存在这个库下,同时这个引用在后续的代码中也并未使用。
2、对于顶层重建的算法部分,他表现的很消极,总是只愿意生成直接将PLY格式生成单层3D Tiles的代码。
但是这个部分DeepSeek就显得比较积极和专业,我就尝试着将DeepSeek基于我的提示词生成的推理轨迹数据复制过来,稍微调整了一下,然后作为提示词输入给Claude3.5,后面发现Claude3.5也开始尝试进行顶层重建代码的生成,但是依然还是会存在瞎引用的问题。
但是这两个工具及时是在PLY格式的解析上也都是存在一些需要定制化的问题,比如:如下两份文件一份是其域导出的PLY文件,另外一份是通过SuperSplat工具压缩处理后的导出文件,对应的属性是有的,但是对应的属性名都是不标准的,按照目前根据标准硬编码的代码来说就没办法读取这些文件。
相比之下,我觉得可能还是DeepSeek是一个「可塑之材」,所以准备回到DeepSeek下再继续做优化,但是如下这个问题还是让我陷入了崩溃,太浪费时间了。
最后总结一下:大模型工具,可以为软件开发提供一个很好的思路的梳理,并快速的进行初步代码的生成,但是调试和优化部分的工作还是需要程序员一步一步来自己实现,比如还可以再一些具体的函数上可以通过给出准确的修饰词来让他进行代码的调整,在这些层面上会是一个很得力的助手,但是前提是你自己对这部分也必须Know-How,他省去的是你自己找搜索引擎以及自己输入代码这部分时间。另外我觉得未来会使用大模型进行代码辅助开发会成为程序员新的技能要求。
相关的提示词、生成代码以及3D GS的数据都已经放在了从零开始学习「空间计算」知识星球中,有兴趣的自己体验一下吧。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型:www.3dcver.com
— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~