粗读论文,提取创新点

图形学方向

  1. A Mechanics-Based Nonrigid Registration Method
    for Liver Surgery Using Sparse Intraoperative Data
    创新点介绍:
    传统的有限元法(FEM)通常需要手动设置边界条件,定义肝脏的固定点(如不可移动的部分)和施加的外力。但该论文中的方法通过建立一个迭代的非线性优化框架,自动地从稀疏术中数据中推断出合适的边界条件和力的位置,而不是依赖人工设置。
    通过修改刚度矩阵并引入软弹簧,算法能够自动确定施加力的位置和大小,而不需要人为干预。
    总结:
    论文中通过优化框架和力学模型的结合,自动推断边界条件和力的位置,避免了手动设定的繁琐过程。模型根据术中点云数据和物理规则自动调整,减少了人为干预,使得配准过程更加高效和自动化。

  2. 3D semantic segmentation with submanifold sparse convolutional networks.
    论文精读

  3. Points of interest linear attention network for real-time
    non-rigid liver volume to surface registration
    创新点:
    1.提出了新的3D配准网络架构:通过结合稀疏卷积POI线性注意力机制,能够在手术过程中估计肝脏表面和内部组织的位移。
    2.设计了POI线性注意力模块:该模块能够在保持高推理速度的同时,专注于重要的兴趣点,提高了配准的准确性。
    3.开发了端到端的框架:该框架可以在18毫秒内估算出肝脏的位移场,满足了实时的需求。
    作者采用了稀疏卷积(Sparse Convolution)和POI线性注意力机制,避免了传统卷积中计算冗余点的浪费。
    改进方向:
    1.改进数据生成方法:通过生成更真实、复杂的边界条件和物理属性,模型可以学习到更加丰富和现实的肝脏变形信息。
    2、收集更多真实数据:(当前模型的训练数据主要依赖合成数据,尽管它与真实情况较为接近,但仍与真实手术中的肝脏变形有一定差距。)由于目前公开可获得的真实临床数据有限,未来的计划是与医院合作,收集更多的真实术中数据,以进一步验证模型的效果,并提高其在实际场景中的泛化能力。

  4. 数据集:
    医学数据集介绍文章汇总(持续更新中)
    3D-IRCADB中有肝脏模型

多模态方向

图像分类领域上的工作都可以直接用到分割领域

CLIP

CLIP 论文逐段精读【论文精读】
CLIP的贡献:打破了之前这种固定种类标签的范式。无论在收集数据集的时候,还是在训练模型的时候,不需要像imageNet那样做1000类,直接搜集这种图片文本的配对,用无监督的方式预测他的相似性。处理数据更方便,训练模型也更方便,在推理的时候更方便
可以在zero shot做各种各样的分类任务

ViLT

ViLT 论文精读
主要创新点: 把目标检测从多模态学习的框架中给移除了
VLP任务需要将图片像素转化成离散性,语义性的特征。而目标检测天然就是离散化过程,目标检测将图片返回成多个bounding box,bounding box就是一个又一个物体,具有明确语义信息,且又是离散化,直接用ROI(Region of Interest:感兴趣区域)抽特征即可。且下游任务与目标检测相似
但目标检测抽图像特征太贵

CLIP 改进工作串讲

CLIP串讲

Lseg(Language -driven semantic segmentation)

Group ViT(Semantic Segmentation Emerges from Text Supervision)

ViLD

ViLD:超越Supervised的Zero-Shot检测器

GLIP_V1/V2(Ground Language-Image Pre-train)

CLIP Passo

利用CLIP绘画
Semantically-Aware Object Sketching图像生成抽象的简笔画

CLIP4Clip

视频检索,CLIP4clip中CLIP指OpenAI的CLIP模型,clip指的是视频中的clip。CLIP模型很适合做Retrieval(检索)任务
CLIP4clip:An Empirical Study of CLIP for End to End Video Clip R

Action CLIIP

任务:动作识别,加了时序信息的分类任务。
Action CLIIP:A New Paradigm for Video Action Recognition(动作识别)
研究动机:
对于有监督学习来说需要标签,但是对于视频理解尤其动作识别,怎么定义这些标签是很困难的事情。因为对于物体来说,标记标签是很容易的,用单词打标签,但是对于动作识别来说,是用一个短语来描述动作,例如open xxx,有很多含义,潜在的label space是接近无穷的,首先标记很多类别的话费用很高,当类别很多的时候softmax无法工作,常见的分类算法就不够用了。如果只标大类的话,遇到子类,细粒度的类依旧没法识别
如果能摆脱这种带标签的数据,如果真的能够从很多很多这种海量的视频数据里先去学一个比较好的特征,然后再去zero shot或者few shot的做下游任务,那其实是最理想的,由此想到clip,因为clip本身就能做很好的zero shot
在这里插入图片描述

CLIP VIL:How Much Can CLIP Benefit Vision and Language Tasks?

CLIP 扩展到其他领域
主要贡献:拿预训练好的CLIP模型当做这个视觉编码器的初始化参数,然后在下游的各种各样的Vision Language下游任务上去做Fine-tune,看看CLIP的这个初始化参数是否好用

Audio CLIP:Extend CLIP to Image,Text and Audio(语音)

在这里插入图片描述

point CLIP:Point Cloud Understanding by CLIP(3D)CVPR2021

把CLIP中已经学到的这么好的2D表征迁移到3D领域来
建立2D与3D的桥梁:将3D点云投射到2D平面上,得到2D深度图
文本明确告诉模型这是一个点云:Point Cloud Depth Map of a [CLASS]
在这里插入图片描述

Depth CLIP:Can Language Understand Depth ?(深度信息)CVPR2022

与其把深度估计看成一个回归问题,不如将其看成一个分类问题。强制性的把深度距离(抽象概念)分成几个大类(giant 、close、…、 far、unseen七个类)
感觉这个很巧妙就是把深度估计变成基于文本的visual grounding,连续的变成离散化的了
把一个深度估计问题转化成文本理解的问题
在这里插入图片描述

CLIP改动总结:

CLIP模型改动的三点

1.改动最小,目前的图像和文本经过CLIP的预训练模型(CLIP预训练数据集比较大,直接使用预训练的参数非常好),得到一个特别好的特征。然后用这个特征做一下点乘或拼接(融合),之前的模型不动,用一个更好的特征加强之前模型的训练。

2.知识蒸馏,将CLIP模型作为teacher网络,生成伪标签。帮助现有的模型收敛更快。

3.不借鉴CLIP的预训练参数,而是借用CLIP这种多模态的对比学习思想(图像文本对,对角线GT)。然后用在自己的任务中,定义自己的正负样本对,然后去算多模态对比学习loss。
在尽量不改变原来大模型的参数,只是加一些可调的模块去训练一点点(按百分之一甚至万分之一的参数),然后就能在下游任务中工作的很好

大模型方向

【李沐论文精读】GPT、GPT-2和GPT-3论文精读
Chain of Thought,CoT

大模型时代下做科研的四个思路(有用&不耗费资源)

1.efficient(PEFT:parameter efficient fine tuning)

做效率提升的(哪里慢提升哪里的速度,哪里heavy使其轻量级)
哪里heavy,就lightweight一些
AIM: Adapting Image Models for Efficient Video Action Recognition

2.Existing stuff(pretrained model)

利用预训练模型,比如直接调用clip做应用,选择new directions: 做新方向,避免撞车,竞争,刷榜

3.plug-and-play

通用性,即插即用模块,比如:模型模块,目标函数,新的loss,一个data augmentation的方法

4.dataset,evaluation,and survey

构建数据集,做评测,综述等文章

三维重建

NeRF笔记

图像分割

SAM segment anything
【模型解读】【代码复现】Segment Anything Model(SAM)

知识蒸馏

全网最细图解知识蒸馏(涉及知识点:知识蒸馏实现代码,知识蒸馏训练过程,推理过程,蒸馏温度,蒸馏损失函数)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值