pontoon-CSDN博客

原创论文解读：SAMPro3D: Locating SAM Prompts in 3D for Zero-Shot Scene Segmentation

通过这种方式，3D 点充当nature prompt，以对齐从该 3D 点跨不同帧投影的pixel prompt，从而使同一 3D 对象的pixel prompt及其 SAM prediction mask在帧之间表现出一致性。最初在 3D 场景的 2D 帧上生成的prompt无法传播到覆盖其他帧中新出现的object，从而导致整个场景的分割不完整（c）（prompt时采用regular grid prompt，视角变化的话，prompt可能会消失）投影到的prompt可能不是最合适的）

2024-08-27 17:29:26 635

原创论文解读：Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without Manual Labels

首先使用 SAM 自动生成的 2D 掩模来预训练与类别无关的 3D 分割模型，这些掩模被投影到部分 RGB-D 点云。为此，在第二阶段，我们利用预训练模型的高置信度掩模预测作为训练信号，以自监督的方式在全 3D 点云上微调模型。Stage2 预训练预测中选高Score的参与监督，只对mask做loss，不对是否“object”做loss，如果将正确的mask预测为“无效”物体对训练有害（可理解为标签噪声的影响）2D 模型泛化能力和零样本能力强，启发：将 2D 模型的这些特征融入到 3D 模型中。

2024-08-27 17:24:53 323

原创论文解读：SAM3D: Segment Anything in 3D Scenes

2.第一帧点云中的object mask（mask id为m）map到第二帧点云中的object mask（mask id为n），σmn为第二针点云中object mask id为n的点数量，σm为第一帧点云中maskid为m的点数量，σn为第一帧点云中maskid为n的点数量，满足下式则认为高度重叠，可合并成一个mask，其中阈值0.5。之后再将第一帧和第二帧点云调换过来重复上述步骤，将第一帧点云中id为n的mask改为id为m。之后将第二帧点云中id为m的mask改为id为n。

2024-08-27 17:20:38 838

原创 vscode清除远程连接的本地缓存

查看本地remote-ssh（远程连接）缓存删除本地remote-ssh（远程连接）缓存。背景：实验室有服务器，经常用自己电脑的vscode远程连接实验室服务器，但是实际上连接的是服务器的docker，如果改配置比如改了GPU和CPU数量时，会重新开一个docker去连接，且该docker里的vscode-server配置需要重新下载且复制到本地，这样本地会占用很大缓存。

2023-02-14 09:51:23 12367 1

原创远程服务器时间慢8小时解决方案

远程服务器时间慢8小时

2022-08-27 23:10:06 382

原创 Vscode远程连接服务器终端zsh+Oh-my-zsh + Powerlevel10 + Autosuggestions + Autojump + Syntax-highlighting

本人在Mac端已经配置好了iterm2 + Oh-my-zsh + Powerlevel10 + Autosuggestions + Autojump + Syntax-highlighting的终端（terminal）环境，但是想用Vscode远程连接服务器，并且想把服务器的终端也同步一下，于是记录如何远程配置服务器的Oh-my-zsh + Powerlevel10 + Autosuggestions + Autojump + Syntax-highlighting的终端环境。......

2022-08-07 11:16:51 2879

原创何凯明新作ViTDET：目标检测领域，颠覆分层backbone理念

何凯明目标检测新作，颠覆分层Backbone理念。

2022-04-27 20:32:00 2479

原创 soft-nms numpy-python实现软非极大值抑制精简代码

soft-nms相对于nms整个改进只需要使用绿色虚线表示的Soft-NMS替换红色虚线表示的NMS。B集合是检测到的所有建议框，S集合是各个建议框得分（分数是指建议框包含物体的可能性大小），Nt是指手动设置的阈值。M为当前得分最高框，bi 为待处理框。相比其他网站的代码，此soft-nms代码实现非常精短，先给出iou的代码：def iou(bbox,gt): #lt是两个框中间重叠框的最左边和最上边的坐标，rb是两个框中间重叠框的最右边和最下边的坐标 lt = np..

2022-03-08 11:09:34 4616 3

原创 NMS-python-numpy 精简非极大值抑制代码

参考别人的代码，发现别人的代码比较繁琐，以下是精简后的NMS代码，代码可读性强，最后给出可视化图以及可视化代码（可视化是参考别人的代码）NMS过程：1 将各组box按照score降序排列2 从score最大值开始，置为当前box，保存idex，然后依次遍历后面的box，计算与当前box的IOU值，若大于阈值，则抑制，不会输出3 完成一轮遍历后，继续选择下一个非抑制的box作为当前box，重复步骤24 返回没有被抑制的index即符合条件的boxNMS在过程中需要计算iou，所以

2022-03-08 10:01:56 783

原创论文解读：GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network

1.瓶颈问题：小尺度目标，受限于缺乏足够的目标特征信息，使之很难从背景中区分出来，且小尺度目标一般都是低分辨率、模糊不清的，因此检测性能一般CNN-based目标检测算法都需要使用到下采样操作，导致小尺度目标不仅损失了空间位置信息，且本来很少的目标特征几乎被背景上的特征给淹没了2.本文贡献：提出了一种用于小物体检测的新型统一端到端多任务生成对抗网络（MTGAN），可以与任何现有的检测器结合使用在MTGAN中，生成器网络生成超分辨率图像，并引入多任务判别器网络，以同时区分真实的高分辨率

2022-03-07 15:52:32 4052

原创论文解读：跨模态/多光谱/多模态检测 Cross-Modality Fusion Transformer for Multispectral Object Detection

（可见图像和热成像）右侧的热图像可以在光照不足的情况下捕捉到更清晰的行人轮廓。此外，热图像还捕捉到被柱子遮挡的行人。在光线充足的白天，视觉图像比热图像具有更多的细节，例如边缘、纹理和颜色。有了这些细节，我们可以很容易地找到隐藏在机动三轮车中的司机，而这在热图像中是很难找到的。1.瓶颈问题：现实世界中环境是不断变化的，比如雨天，雾天，晴天，...

2022-03-07 15:44:14 14707 9

原创论文解读TransFG: A Transformer Architecture for Fine-grained Recognition

论文解读TransFG: A Transformer Architecture for Fine-grained Recognition问题：Transformer还未应用在图像细分类领域中贡献点：1.vision transformer的输入把图像切分成patch，但是是没有overlap的，文章改成切分patch用overlap（这只能算个trick）2.Part Selection Module通俗讲就是最后一层的输入与vision transformer不同，即把最后一层前.

2021-04-09 17:07:03 3321 9

原创 python爬虫中requests库和正则表达式之淘宝爬虫实战

#python版本基于2.7使用requests库是需要安装的，requests库相比urllib 库来说更高级方便一点，同时与scrapy相比较还是不够强大，本文主要介绍利用requests库和正则表达式完成一项简单的爬虫小项目----淘宝商品爬虫。有关于更多requests库的使用方法请参考：官方文档第一步：我们先打开淘宝网页

2018-02-06 14:29:49 1637

pontoon‘s zone