是个蛋挞-CSDN博客

原创鼠标回调代码

等待按键，如果按下'q'键，退出循环。# 设置鼠标回调函数。

2024-05-13 15:03:57 145

原创《VM-UNet: Vision Mamba UNet for Medical Image Segmentation》论文阅读及代码复现

Patch Embedding layer将输入图像划分为4*4的不重叠补丁，随后将图像的维度映射到C（默认96），该过程得到嵌入图像H4×W/4×C，然后编码器的4个stage进行特征提取，前3个stage结束时应用补丁合并操作以减少输入特征的高度和宽度，同时增加通信数量。在本文中，我们首次引入了一种纯的基于SSM的医学图像分割模型，将VM-UNet作为基线。3）在医学图像分割任务中为纯基于SSM的模型建立了基线，提供了有价值的见解，为开发更高效、更有效的基于SSM分割方法铺平了道路。

2024-03-05 20:41:47 2940 36

原创《PointLLM: Empowering Large Language Models to Understand Point Clouds》论文阅读及代码实现

与众不同的是，PointLLM通过端到端训练提供了对对象点云的直接和全面的理解，实现了准确、开放和自由形式的交互。它们提供直接的几何和外观数据，能够更全面地了解3D形状、有效的遮挡管理和独立于视点的分析。第一阶段：特征对齐阶段，冻结点云编码器和LLM的参数，并仅仅训练MLP projector，在这个阶段，训练过程使用简短的描述指令，旨在有效地将点特征与文本标记空间对齐。增强LLM对3D对象点云的理解会带来三个问题：缺乏训练数据，建立合适的模型架构的必要性，以及缺乏全面的基准和评估方法。

2023-12-22 09:14:10 1375

原创《Video-LLaVA: Learning United Visual Representation by Alignment Before Projection》论文阅读及代码实现记录

论文地址：[通常LLM只能在用户提供的文本输入内做出相应是不够的，应该人类之间的互动设计多个渠道，包括视频和文本。一些工作将图像映射到类似文本的标记中，使LLM能够理解图像。与仅仅进行图像理解任务相比，增强LLM理解视频的能力更具有挑战性。目前有一些模型可以处理图像或者视频单个视觉模态。图中表现了不同LVLM类型的模型范式。一般来说，分开进行学习性能会更好，因为对于不同模态的特征进行统一具有难度，导致模型性能下降。本文提出了一个Video LLaVA，用于LVLM同时处理图像和视频。

2023-12-19 11:04:14 1054 1

原创《Multimodal Industrial Anomaly Detection via Hybrid Fusion》论文学习及代码复现

基于2D的工业异常检测已经得到了广泛的讨论研究，而基于3D点云和RGB图像的多模态工业异常检测仍然有许多未涉足的领域，现有的多模态工业缺陷检测方法直接将多模态特征连接起来，导致不同特征之间存在干扰，影响检测性能。3、DLP（决策层融合）：将多模态信息和多个记忆库相结合，并使用2个可学习模块Da和Ds进行检测与分割，其中Mrgb、Mfs、Mpt是记忆库， Φ和ψ是单个记忆库检测和分割的得分函数、P是记忆库构建算法。2、基于预训练特征提取器的方法：将提取到的特征映射到正态分布，然后将分布外的特征作为异常。

2023-11-03 15:18:45 1279 49

原创 AnomalyGPT论文阅读记录

获取编码过程中的4个阶段 patch-level features，计算patch-level features与表示正常和异常文本特征的相似性，最终实现异常检测。从正常样本中获取 patch-level features，并且储存起来，将异常样本的每个patch-level features 进行相似度计算，实现异常检测。这在工业异常检测中是一种新的思路和可能性（拥有专家知识的视觉检测系统）2、通用型视觉大模型的发展，但是专业用于工业缺陷检测的大模型缺乏。2、设计的解码器对细颗粒度语义识别能力强。

2023-10-23 16:09:41 846

m0_58520624的博客

原创鼠标回调代码

原创《VM-UNet: Vision Mamba UNet for Medical Image Segmentation》论文阅读及代码复现

原创《PointLLM: Empowering Large Language Models to Understand Point Clouds》论文阅读及代码实现

原创《Video-LLaVA: Learning United Visual Representation by Alignment Before Projection》论文阅读及代码实现记录

原创《Multimodal Industrial Anomaly Detection via Hybrid Fusion》论文学习及代码复现

原创 AnomalyGPT论文阅读记录

原创关于制作lmdb文件的map_size的意义

原创 in function ‘cv::contourArea‘报错

原创卷积神经网络入门个人笔记

空空如也

空空如也