自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 鼠标回调代码

等待按键,如果按下'q'键,退出循环。# 设置鼠标回调函数。

2024-05-13 15:03:57 145

原创 《VM-UNet: Vision Mamba UNet for Medical Image Segmentation》论文阅读及代码复现

Patch Embedding layer将输入图像划分为4*4的不重叠补丁,随后将图像的维度映射到C(默认96),该过程得到嵌入图像H4×W/4×C,然后编码器的4个stage进行特征提取,前3个stage结束时应用补丁合并操作以减少输入特征的高度和宽度,同时增加通信数量。在本文中,我们首次引入了一种纯的基于SSM的医学图像分割模型,将VM-UNet作为基线。3) 在医学图像分割任务中为纯基于SSM的模型建立了基线,提供了有价值的见解,为开发更高效、更有效的基于SSM分割方法铺平了道路。

2024-03-05 20:41:47 2940 36

原创 《PointLLM: Empowering Large Language Models to Understand Point Clouds》论文阅读及代码实现

与众不同的是,PointLLM通过端到端训练提供了对对象点云的直接和全面的理解,实现了准确、开放和自由形式的交互。它们提供直接的几何和外观数据,能够更全面地了解3D形状、有效的遮挡管理和独立于视点的分析。第一阶段:特征对齐阶段,冻结点云编码器和LLM的参数,并仅仅训练MLP projector,在这个阶段,训练过程使用简短的描述指令,旨在有效地将点特征与文本标记空间对齐。增强LLM对3D对象点云的理解会带来三个问题:缺乏训练数据,建立合适的模型架构的必要性,以及缺乏全面的基准和评估方法。

2023-12-22 09:14:10 1375

原创 《Video-LLaVA: Learning United Visual Representation by Alignment Before Projection》论文阅读及代码实现记录

论文地址:[通常LLM只能在用户提供的文本输入内做出相应是不够的,应该人类之间的互动设计多个渠道,包括视频和文本。一些工作将图像映射到类似文本的标记中,使LLM能够理解图像。与仅仅进行图像理解任务相比,增强LLM理解视频的能力更具有挑战性。目前有一些模型可以处理图像或者视频单个视觉模态。图中表现了不同LVLM类型的模型范式。一般来说,分开进行学习性能会更好,因为对于不同模态的特征进行统一具有难度,导致模型性能下降。本文提出了一个Video LLaVA,用于LVLM同时处理图像和视频。

2023-12-19 11:04:14 1054 1

原创 《Multimodal Industrial Anomaly Detection via Hybrid Fusion》论文学习及代码复现

基于2D的工业异常检测已经得到了广泛的讨论研究,而基于3D点云和RGB图像的多模态工业异常检测仍然有许多未涉足的领域,现有的多模态工业缺陷检测方法直接将多模态特征连接起来,导致不同特征之间存在干扰,影响检测性能。3、DLP(决策层融合):将多模态信息和多个记忆库相结合,并使用2个可学习模块Da和Ds进行检测与分割,其中Mrgb、Mfs、Mpt是记忆库, Φ和ψ是单个记忆库检测和分割的得分函数、P是记忆库构建算法。2、基于预训练特征提取器的方法:将提取到的特征映射到正态分布,然后将分布外的特征作为异常。

2023-11-03 15:18:45 1279 49

原创 AnomalyGPT论文阅读记录

获取编码过程中的4个阶段 patch-level features,计算patch-level features与表示正常和异常文本特征的相似性,最终实现异常检测。从正常样本中获取 patch-level features,并且储存起来,将异常样本的每个patch-level features 进行相似度计算,实现异常检测。这在工业异常检测中是一种新的思路和可能性(拥有专家知识的视觉检测系统)2、通用型视觉大模型的发展, 但是专业用于工业缺陷检测的大模型缺乏。2、设计的解码器对细颗粒度语义识别能力强。

2023-10-23 16:09:41 846

原创 关于制作lmdb文件的map_size的意义

看到网络上的代码都是默认map_size为1T ,未说明用法,查询文档后env = lmdb.open("./train",map_size=1099511627776)自己设置合适的值找到阈值

2022-05-12 15:52:21 923

原创 in function ‘cv::contourArea‘报错

cnts = cv2.findContours(edged_image.copy(), cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE)cnts = cnts[0] if imutils.is_cv2() else cnts[1]cnts = sorted(cnts, key=cv2.contourArea, reverse=True)[:5]报错:  OpenCV(4.1.1) error: (-215:Assertion failed) npoints >

2022-04-27 20:07:35 4239 2

原创 卷积神经网络入门个人笔记

预备知识1.神经元1943年,心理学家McCulloch和数学家Pitts参考了生物神经元的结构,发表了抽象的神经元模型MP、在MP模型里,函数g是sgn函数,也就是取符号函数。这个函数当输入大于0时,输出1,否则输出0。2.神经网络输入层:众多神经元接受大量非线形输入讯息,输入的讯息称为输入向量。输出层:讯息在神经元链接中传输、分析、权衡,形成输出结果。输出的讯息称为输出向量。隐藏层:如果有多个隐藏层,则意味着多个激活函数。3.卷积神经...

2021-07-20 18:10:46 397

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除