- 博客(189)
- 收藏
- 关注
原创 Qwen2.5-VL 模型实现目标检测
因为模型和权重是开源的, 可以本地部署, 也可以直接使用api调用更为方便。Qwen2.5-VL模型是一个视觉语言多模态大模型。
2025-04-30 12:09:38
517
原创 yolo-world踩坑指南
官方源码: https://github.com/AILab-CVC/YOLO-World安装这一块的坑很多,这一块的安装指导非常混乱,很容易把环境搞崩, 建议conda 新建一个环境。pip install -e . 直接安装的话, 会报各种版本的错。 另外还有一些依赖未包含, 运行时会报错。索性手动安装了所需要的依赖包。最终安装的可以使用的版本:注意。 上面安装的mmcv的版本不满足要求,会报错, 具体报错如下:是因为版本不满足要求, 目标版本装了好久没装上, 最后的解决办法简单粗暴, 直接吧报错的
2025-04-27 19:04:07
391
原创 详解相机的内参和外参,以及内外参的标定方法
首先空间中的一点由世界坐标系转换到相机坐标系 ,然后再将其投影到物理成像平面 ( 成像平面坐标系 ) ,最后再将成像平面上的数据转换像素坐标系。相机内参表达的就是这三个坐标之间的转换关系, 而相机外参表达的是相机与世界坐标系之间的转换关系。常用求解PnP 的方法,即已知多个点, 在像素坐标系的二维坐标, 和在世界坐标系的三维坐标,并且已知内参, 求解旋转平移矩阵。外参标定的核心是:已知多个点分别在相机坐标系下的坐标和在世界坐标系下的坐标, 求它们之间的映射关系。, 在相机坐标系下的坐标为。
2025-04-02 20:52:49
1998
原创 单应矩阵和旋转平移矩阵的区别与联系
单应矩阵单应矩阵是一个3×3的矩阵,通常用于描述两个平面之间的投影变换。它能够将一个平面上的点映射到另一个平面上的点。在图像处理中,单应矩阵常用于图像的平面变换,例如图像拼接、图像矫正等场景。它可以通过对应点对(即两个平面上的点对)来估计得到。
2025-03-25 15:56:27
804
原创 带旋转的目标标注工具-X-AnyLabeling
对于2D目标检测标注, 上面的工具只能标注不带旋转的检测框。但是如果我们要进行带旋转方向的检测(OBB), 就需要标注带旋转的数据, 这个时候可以使用X-AnyLabeling 这款工具。
2025-03-19 20:05:37
703
原创 智能标注工具 T-Rex Label
该工具可以进行自动化标注, 只需框选出一个标记, 就可以自动标注出图片中所有的其他同类物体。支持到处YOLO 和COCO格式。首先使用智能标注, 可以标注出大部分的物体, 如果有错的或者漏的, 可以删除, 也可以使用矩形框工具进行手动增加。
2025-03-10 19:49:27
373
1
原创 DINO, Grounding DINO, DINO-X系列工作解读
有2个版本的模型, 分别是Pro和Edge, Pro主打效果好, Edge版本主打高性能, 牺牲了一定的效果。把闭集检测器划分为3个阶段, 并且在3个阶段都进行了融合, 包括特征增强, 语言引导的查询选择 和交叉模态的编码器。这也是区别其他方法的地方, 其他方法一般在1-2个阶段进行融合。DINO-X 具备了基础的目标级别的表征能力, 可以支持多种目标感知和理解的任务, 比如检测, 分割, 姿态估计, 问答等等。DINO 的主要贡献是在之前的DETR系列工作上提出了3点改进, 从而提升了模型的性能和效率。
2025-03-05 20:00:38
1348
原创 LieGrasPFormer: Point Transformer-based 6-DOF Grasp Detectionwith Lie Algebra Grasp Representation解读
LieGrasPFormer 生成 256 个抓取配置及其对应的抓取质量,并通过碰撞检测筛选出无碰撞且抓取质量高的配置进行抓取细化。在 PyBullet 环境中,展示了不同初始机器人关节配置下的抓取结果,验证了 LieGrasPFormer 能够生成多样化的抓取配置,满足各种初始抓取配置,适用于运动规划。假设预测的抓取质量遵循高斯分布,预测的抓取配置越接近真实抓取配置,抓取质量越高。其中,cj,gcj,g表示在抓取点qjqj处的抓取质量,qgqg表示真实抓取点,δδ是高斯分布的标准差。
2025-02-26 20:13:41
1059
原创 Task-Oriented 6-DoF Grasp Pose Detection in Clutters 解读
通过构建大规模的 6DTG 数据集和提出任务导向点选择及任务引导抓取姿态检测模块,OSTG 方法在多个指标上显著优于现有方法。:首先,构建了一个大规模的 6自由度任务导向抓取数据集(6DTG),包含 4391 个杂乱场景和超过 200 万个 6自由度抓取姿态。去除任务导向点选择模块后,点特征在二维空间中混合,而使用完整模型的点特征则按对象标签分组,表明模型在点特征空间中学习到了区分不同对象的区域。:在选定的任务导向点基础上,提出了一种任务引导的抓取姿态检测模块,直接检测任务导向的 6自由度抓取旋转。
2025-02-26 19:49:36
866
原创 Rethinking 6-Dof Grasp Detection: A Flexible Framework forHigh-Quality Grasping 解读
这篇论文提出了一种灵活的 6-Dof 抓取检测框架 FlexLoG,通过局部抓取模型和灵活引导模块,能够处理场景级和目标导向抓取。:在 GraspNet-1Billion 数据集上,FlexLoG 在相似和新颖的分割上分别实现了 10.4/9.83 和5.73/3.89 的性能提升,优于现有方法。:FGM 能够兼容全局(如抓取热图)和局部(如视觉定位)引导方法,生成高质量的抓取。LoG 采用基于 PointMLP 的轻量级编码器结构,通过三个专门的头部(碰撞头部、方向头部和偏移头部)预测抓取的各种属性。
2025-02-25 19:46:52
686
原创 Efficient Heatmap-Guided 6-Dof Grasp Detection inCluttered Scenes 解读
这篇论文提出了一种新的端到端 6-Dof 抓取姿态检测框架,通过全局到局部和语义到点的方案,在两个代表性数据集上实现了最先进的性能,且比所有现有方法快得多。尽管该框架是单视图和开环的,限制了其在更复杂场景中的应用,但未来的工作将利用其进行闭环抓取检测,使机器人能够调整预测的抓取姿态并响应环境变化。:在 UR-5e 机器人上进行的实验表明,HGGD 能够成功应用于真实世界,生成高质量的抓取,成功率高达 94%,杂乱完成率为 100%。:该模块利用 GHM 生成的热图作为指导,聚合局部点云并检测抓取。
2025-02-25 19:39:37
994
原创 Graspness Discovery in Clutters for Fast and Accurate Grasp Detection 解读
首先,定义了两种抓取性分数:点抓取性分数SpSp和视图抓取性分数SvSv。点抓取性分数表示每个点的抓取可能性,视图抓取性分数表示每个视图的抓取可能性。
2025-02-21 20:17:32
1173
原创 pytorch3d安装记录
我是直接下载的源码安装, 但是执行python setup.py install 时有各种编译报错, 其实怀疑是gcc版本问题, gcc 版本 从gcc-7, gcc-8, gcc-9, gcc-10, gcc-11 都试了一遍, 都有不同的编译报错。通过pip 或conda 可以很容易安装上预编译好的包, 安装过程不会报错, 但是使用的时候就会报各种错误 ,原因是预编译好的包跟自己的环境不一定匹配, 比如CUDA版本, torch版本等。
2025-02-20 18:59:03
344
原创 ptython setup.py install 设置python包编译时的并行数
通过源码编译安装pytorch3d的时候, 直接执行python setup.py install 时, 默认开的并行数很多, 有10几个, 直接导致机器卡死。通过设置下面的环境变量, 可以设置较小的并行数, 避免占用过多的资源。设置后, 同时只有4个编译的进程。
2025-02-20 15:20:36
231
原创 安装MinkowskiEngine记录
在我的环境中, 直接pip安装一直编译错误。一开始是因为gcc版本过高(11.x), 无法编译MinkowskiEngine, 后来降低gcc版本到7.5 编译依然报错。降低gcc版本, 请参考。最后下载了源码, 通过。
2025-02-18 20:04:12
434
2
原创 解决 THC/THC.h: No such file or directory 报错
出现THC/THC.h: No such file or directory 这个问题的原因主要是:pytorch在1.11版本之后,THC/THC.h就被移除了,所以出现这个问题的原因是因为pytorch版本太高的原因。解决这个问题一个最直观的方法就是降版本,如果不更改版本的话, 需要修改源代码。下面的代码库中已经修改了对应的代码, 可以从这个库中下载代码,即可成功编译。
2025-02-14 14:22:19
379
原创 Unbuntu 22.04 安装 GCC 7.5版本
Unbuntu 22.04 默认的gcc版本是11, 版本太高, 无法编译Minkowski Engine。安装是找不到这么低的旧版本的,因此需要首先添加包含这个版本的源头。因此需要安装低版本的gcc。
2025-02-12 14:13:51
563
原创 解决 ssh: connect to host github.com port 22: Connection timed out
参考链接: https://zhuanlan.zhihu.com/p/521340971。出现这个错误的原因是 22 端口被防火墙屏蔽了, 换一个端口即可,如443端口。
2025-02-07 18:40:19
677
原创 目标检测,语义分割标注工具--labelimg labelme
labelimg可以用来标注目标检测的数据集, 提供多种格式的输入, 如Pascal Voc, YOLO等。
2024-12-28 23:30:40
1160
原创 pytorch GPU版本安装
现在的安装已经很简单了, 一键式安装即可。网上的很多安装教程已经过时了, 不用像很早之前一样手动安装cuda toolkit, cudnn了, 直接安装的pytorch版本中已经包含了相关的包。
2024-12-28 12:50:45
205
原创 无需tokenizer--Byte Latent Transformer: Patches Scale Better Than Tokens
https://mp.weixin.qq.com/s/7ju-PjPZVPrBLQ1qFnFoKw
2024-12-17 12:00:30
190
原创 旧版本torch torchvision安装下载
现在最新的torch版本都到2.x以上了。如果想要下载1.x版本版本, 通常直接pip安装都会报找不到相应版本的错误。出现这个错误的原因是pip 的下载源中没有老版本的torch 了, 特别是当要下载cuda版本的torch时。一种比较简单的解决办法是手动下载指定版本的.whl文件, 然后安装。
2024-12-05 21:11:50
587
原创 batchnorm与layernorn的区别
图像特征通常每个通道是较为独立的, 比如一个通道关注颜色, 另一个通道可能关注纹理等等,不同同道之间可比性较低, 而对同一个通道, 不同图像样本区别可能不大, 有可比性。举个例子, 假设输入的特征图尺寸为16。224*256, 这4个维度分别是B, H, W,D, 那么batchnorm就是对256个通道的每一个通道, 在16个样本上进行归一化计算。cv 中的batch通常较大, 在batch这个维度求均值方差是有意义的, 而nlp中batch通常较小, 求均值方差失去意义。
2024-11-21 23:22:57
466
原创 torch矩阵乘 mm bmm matmul区别
只能进行2个3维矩阵的乘,第1维是batch, 在后两个维度上进行矩阵乘。可以进行高维矩阵的乘, 在最后两个维度上进行矩阵乘。只能进行2个2维矩阵的乘, 维度不对会报错。
2024-11-20 21:12:43
301
原创 深入理解Transformer中的位置编码
由于注意力的作用机制,不论输入序列的顺序如何,输出结果都是一样的。也就是丢失了位置信息。但是对于语言模型, 我们都知道顺序是很重要的, 所以需要对输入序列额外注入位置信息。从图上可以看出, 序列位置与位置编码有个近似的线性关系, 同时还有一定的周期特性,因此位置编码一定程度上反应了序列中的位置信息。Transformer 论文中采用了简单的相对位置编码, 用sin 和cos函数表示序列中不同位置的信息。横轴表示嵌入维度, 纵轴是token在序列中的位置, 如输入是一个长度是32的序列。
2024-11-03 22:01:47
609
原创 Next-Token Prediction is All You Need 智源发布原生多模态大模型Emu3
Emu3模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。与当前由扩散模型(如Stable Diffusion)和组合方法(如结合 CLIP视觉编码器和LLM)所主导的多模态大模型有显著不同。
2024-10-21 20:38:54
402
原创 OpenVLA-首个开源视觉语言动作大模型
在VLA这个领域, 比较著名的工作当数谷歌的RT系列, 有RT-1, RT-2, RT-X等等。但是RT系列没有开源代码, 想要复现还是有难度的。最重要的是, 没有提供fine-tune的方法, 无法根据自己的需要进行微调。现在大模型已经卷到了机器人领域。在视觉语言模型(VLM)的基础上, 加入机器人的动作(Action) 这一模态, 视觉语言动作大模型(VLA)是目前大模型应用于机器人的流行方法。
2024-10-21 20:10:05
1231
原创 聊聊最近很火的数字表亲 Digital Cousin
作者的实验结果也表明, 在数据孪生场景中训练的机器人策略, 在分布内表现很好, 在分布外表现就差很多, 说明泛化性不足。而在数字表亲上训练的策略, 在分布内和分布外都有比较好的额表现。带来的结果就是, 数字孪生的生成十分昂贵, 而数字表亲的生成就便宜多了。并且由于数字表亲生成的是类似场景, 泛化性上会好很多。数字孪生致力于精确重现真实的物理空间, 而数字表亲只是生成与真实物理空间类似的场景。都是数字化物理空间的一种手段, 目的是为了模拟真实的物理空间。数字表亲这一概念最近由李飞飞团队提出, 引起了热议。
2024-10-16 20:33:12
1818
原创 向量的外积
如上图, 想要判断向量b在向量a的顺时针方向还是逆时针方向, 计算axb的外积即可。大于0 , 则b在a的逆时针方向, 小于0则b在a的逆时针方向, 等于0 时a和b共线。向量的外积还是一个向量, 方向是垂直于这两个向量所在的平面。向量的内积大家都很熟悉了,计算两个向量之间的夹角时就用到了向量的内积。向量的内积是一个标量, 它的值是一个向量在另一个向量上投影的长度。那么c的方向满足右手规则, 垂直a和b所在的平面向上。向量的外积有一个特别有用的地方:判断向量的旋转方向。的方向就是垂直a和b所在的平面向下。
2024-10-14 21:59:21
937
原创 python退出子线程的两种方式
在python中开启一个线程是很容易的, 通过threading模块定义一个线程, 直接调用start 方法即可启动线程。但是想要停止一个线程不是那么容易, 没有提供直接的方法可以调用。但是我们仍然可以通过其他方法间接实现这一功能。
2024-10-09 19:39:42
1311
原创 cv2.waitkey使用
cv2.imshow(“detection”, color_image) # 窗口显示,显示名为 Capture_Video。k = cv2.waitKey(100) & 0xFF # 每帧数据延时 1ms,延时不能为 0,否则读取的结果会是静态帧。if k == ord(‘s’): # 键盘按一下s, 保存当前照片和机械臂位姿。print(f"采集第{count}组数据…
2024-09-25 19:46:28
259
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人