- 博客(178)
- 收藏
- 关注
原创 MLLM ICL
1. 选用C4数据集(通用文本数据集,不针对某一 NLP 任务), C4 的 1024 长度文本切成8:2的两部分,把前面80%压缩成向量(演示集),并将向量和后20%的开头几个字符一起输入给大模型,让大模型预测完整的后20%(测试输入)2. 在 MetaICL 数据集的 ICL 任务上训练,每个迭代抽取K+1个演示示例,前K个拼接为演示集D,第K+1个作为测试输入。(1)使用完整context的LLM作为教师,使用蒸馏向量的LLM作为学生,用 KL 散度衡量教师与学生模型的词分布差异。
2025-12-06 22:22:23
234
原创 SPHINX多模态架构
不同的图像之间在 vision encoder 上没有交互,因此它们被迫在 LLM 内交互以获得完整的视觉信息,这种策略反过来又会激励 LLM 学习视觉条件下的关系,以实现更好的跨模态学习。这里是粗暴且直接的,直接靠LLM来学习不同图像之间的关系,并不是一个有效的策略,不同的图片,需要维护一个新的position Embedding。预定义了具有各种形状的网格,并为图像挑选合适的网格(通过IOU计算):(1)网格应尽可能保留图像的分辨率,(2)网格应拟合输入图像的纵横比。fuyu的方案也是可以借鉴的。
2025-11-28 12:09:07
270
原创 Surgical Video Understanding LLM
蓝色部分,将手术过程中碎片化的语音转录文本,将转录文本与流程 (a) 构建的 结构化手术步骤描述 进行语义匹配,生成标准化的片段级叙事文本。(1)优先对含手术器械的区域进行掩码,不同时间长度(2、4、8、16 帧)的mask,让AE重建mask的部分,练一下encoder。第二阶段输入时间码,对时间码对应的片段高频采样(2fps),将第一阶段的低频特征作为kv,采样出的特征作为q,做注意力融合。多层对比学习,红色是手术流程中不同阶段的核心操作描述,绿色是对整个手术视频的摘要文本(病例总结)
2025-11-18 17:20:08
313
原创 DeepSeek OCR 解读
数据:包含 OCR 1.0 数据(多语言 PDF 文档、Word 数据、自然场景 OCR 数据)、OCR 2.0 数据(图表数据、化学公式数据、平面几何数据)、通用视觉数据和 10% 文本数据的混合数据集。(5)模型预训练时学到了先验,或许视觉token的效果不好,但是模型根据部分正确的表征还原了信息,需要破坏视觉输入的文字顺序等方法测试,例如图片从“我喜欢你”->“你欢欢我”(3)确实压缩了token,但会不会和文字一样上下文坍塌呢,比如128K上下文的模型,传入超过12.8K的视觉token会怎么样。
2025-10-24 03:32:48
570
原创 Video Understanding Lab
(2)Mix-Mamba:channel和temporal的mamba,同时encoder判别相邻帧的相似度,对不同密度的信息动态调整特征采样步长。(1)构建数据集:医生专家看图像数据集提供音频,ASR->文本,对齐图像得到QA对;外部多选题+数学数据GRPO练Qwen32B;图像层次:练完的Qwen32B在第一步的QA对上造“图像 - 指令 - 掩码” 对和“图像 - QA” 对。视频层次:将视频数据集的多帧图像描述组合,喂给Qwen32B生成 “视频 - QA” 对。
2025-10-23 21:55:39
255
原创 Video Understanding Datasets
每帧图像附带动作标签,与工具、目标、方向等语义有关,动作从粗粒度动作 → 细粒度动作(“Dissection”(分离)-> “Move knife tip upward to cut mucosa”(刀尖上移切开黏膜))“三元组”标注:<instrument, verb, target>(工具、动作、目标解剖结构)17,679 张图像,其中带有 32,699 个边界框,以及 88,395 个多级动作。一个帧可能同时有阶段标签、步骤标签、工具类别标签、动作标签。长期标签:手术阶段、步骤。
2025-10-23 20:57:17
215
原创 Video Understanding——CVPR2025
(1)上三角矩阵的注意力寄存器:上三角矩阵中的注意力分数不参与因果推断,这里的注意力分数有点浪费的,所以对上三角矩阵的值按距离加衰减因子,在做sotmax之前和下三角矩阵处理后的原始注意力矩阵相加,抵消不重要token的影响。(4)不强制每一行注意力总和为1,强制为1会导致无关token也要分走注意力。(3)在softmax后用下三角矩阵再检查一次。(5)对越早出现的token掩码的越慢。(2)序列长度超过256性能会下降。
2025-10-20 18:06:37
171
原创 Video Understanding Baseline via ECCV2022 papers
而含有目标的 patch 的梯度 → 有一致方向 → 会在统计上占主导(2)引入Π,冻结分类网络(3)冻结Π,微调分类网络。将通道分成多个 head,每个 head 独立地预测采样点偏移和权重,双线性插值得到偏移后的特征值特征,把多个head的偏移特征合并。Global CNN轻量,Local CNN密集,Π是用策略梯度学的RNN(取得patch的crop操作不可求导),fC是RNN。,使得卷积核在input feature map的采样点发生偏移,集中于我们感兴趣的区域或者目标,
2025-10-14 22:11:10
642
原创 Video Understanding--ECCV2022(50)
(3)维护记忆库解决在线分割实例ID分配问题,每个实例有一条独立记录,记录包含该实例的 “多帧时序对比嵌入(历史嵌入)”、“存在时长(帧数)”、“最新帧的边界框与类别标签”;历史嵌入->当前帧的嵌入做相似度计算,当前帧的所有嵌入(不同实例)->历史嵌入做相似度计算,若这俩嵌入的相似度高,按多帧的时间顺序加权得到新的历史嵌入。(2)CLIP的Transformer块中,视觉先做自注意力,视听觉再做双向交叉注意力,其中一方向的输入是视觉嵌入、听觉嵌入和视觉的CLS token。(2)定位不到短的局部视频。
2025-10-04 22:10:19
934
原创 Video Understanding baseline
把视频划分成很多固定长度的片段(clip)训练:1.从视频video中随机选取5个clips,每个clip视频长2s;2.将每个clip视频帧resize到128*171:也就是差不多4:3,贴合数据集;3.对每个视频clip,在spatial和temporal两个维度进行随机crop出16*112*112:(1)temporal:从 2s 的 clip 中裁出 16 帧(2)spatial:从 128×171 中裁出 112×1124.再random horizontally flip;
2025-09-24 16:07:27
824
原创 RWKV与VRWKV
AFT是RWKV的灵感来源之一,不需要q和k进行运算来对v加权,而是在运行代码前设定一个固定的w矩阵,表示一个位置的token对另一个位置的positional bias。RWKV中的channel就是指隐藏层的维度D中每个维度上的值,当前token的前一个向量就是-1w,前两个就是-2w,做到了距离当前token越远的token,衰减越多。左图是channel的可视化,第一层在后面的维度不再被关注,而第十二层这样的信息可以以很高的信息水平被保留到很后面的维度。X^ 是经四向移位后的 token;
2025-08-09 20:50:50
671
原创 LLM架构研究(~8.3)
因此,位于 t位置的token只能看到位置 ≤ t的token,这保留了自动递归顺序,模型的结构中仍然存在隐含的方向感。(2)在推理过程中降低了key和value张量的内存带宽使用,因为需要从KV缓存中存储和检索更少的键和值。Kimi 2.5与DeepSeek V3基本相同,除了它使用了更多的MoE模块专家,在多头潜在注意(MLA)模块中使用了更少的头部。与Llama 3 1B相比,Qwen3是一个更深层次的架构,具有更多的图层,而Llama 3是一个更广泛的架构,具有更多的注意力。
2025-08-03 14:38:23
541
原创 深度学习复习笔记
其中d代表两个样本特征的欧氏距离,y为两个样本是否匹配的标签,y=1代表两个样本相似或者匹配,y=0则代表不匹配。margin为设定的阈值,这种损失函数主要是用在降维中,即本来相似的样本,在经过降维(特征提取)后,在特征空间中,两个样本仍旧相似;而原本不相似的样本,在经过降维后,在特征空间中,两个样本仍旧不相似。CondenseNet的剪枝并不是直接将这个特征删除,而是通过掩码的形式将被剪枝的特征置0,因此在训练的过程中CondenseNet的时间并没有减少,反而会需要更多的显存用来保存掩码。
2025-05-30 17:31:43
579
原创 SAM1&2
也有MLP和linear classifier分类分割区域。解决混淆的输入:对于一个prompt,模型会输出3个mask,实际上也可以输出更多的分割结果,3个可以看作一个物体的整体、部分、子部分,基本能满足大多数情况。使用IOU的方式,排序mask。在反向传播时,参与计算的只有loss最小的mask相关的参数。point和box可以作为一类使用position encodings, text可以使用CLIP作为encoder, 而mask是一种密集型的prompt,可以使用卷积作为encoder。
2025-04-24 17:55:17
635
原创 3d物体检测
Cube R-CNN采用IoUness,即预测候选区域与真实目标框的2D IoU值,适用于数据标注不完备的情况。输出13个参数,包括:图像平面中心(u,v)、深度z、尺寸(w,h,l)、6D旋转姿态p、3D不确定性μ;:基于Plain DETR构建的单尺度Transformer检测器,生成2D框基础上扩展到3D框。直接从RGB(-D)输入中预测3D框,而不需要将输入提升到3D空间。深度输入为仿射不变深度,结合相机内参反投影为实际3D框。在每个2D检测框的基础上,预测对应的3D立方体;
2025-04-19 13:43:27
654
原创 2d深度预测
1 用合成图像替代所有标注的真实图像:真实图像中的标签存在粗略的情况;虽然合成图像可以提供高质量的深度标签,但它们与真实世界的图像之间存在分布上的差异。二是引入了大规模未标记的真实图像,并利用强大的教师模型为这些图像生成伪标签,以作为学生模型训练的数据来源。可能的原因:语义分割的label是离散的整数,值的含义表示的是整数的类别。深度估计的结果是连续的,值的含义表示的是像素点的深度回归值。3 通过已有标签的数据和第2步中生成的伪标签数据,加上图片扰动(图片增强),来训练另一个MDE模型(称之为S模型)
2025-04-18 22:14:52
492
原创 2D物体检测学习
得到预测结果以后,将object predictions和ground truth box之间通过匈牙利算法进行二分匹配:假如有K个目标,那么100个object predictions中就会有K个能够匹配到这K个ground truth,其他的都会和“no object”匹配成功,使其在理论上每个object query都有唯一匹配的目标,不会存在重叠,所以DETR不需要nms进行后处理。2.此前的检测器大都先用手工设计的候选框预测方案,例如anchor或滑动框。,两个模态特征乘起来求最大的前Nq个。
2025-04-18 18:31:18
472
原创 论文阅读--LlaVA
LLaVA 的模型结构很简单,使用预训练的 Visual Encoder(CLIP ViT-L/14)和 LLM (LLaMA),为了做 Alignment,用一个简单的线性层 Projector 将视觉特征转换为文本特征。以图像描述为例:由图像Xv,图像的标题Xc组成的二元组可以对应一系列问题Xq(由GPT-4生成)来指示模型生成简单的描述。前面两种类型更多的是描述图片中存在的信息,而该问题需要在前两步的基础上遵循严格的逻辑,推理出一些信息出来。对于每个问题,从列表中抽取一个询问。模型的投影层和LLM。
2025-02-08 17:41:45
913
原创 DPO&PPO
DPO(Direct Preference Optimization)通过利用奖励函数与最优策略之间的映射关系,证明这个受限的奖励最大化问题可以通过单阶段的策略训练来精确优化,本质上是在人类偏好数据上解决一个分类问题。Reference Model:参考模型,它的作用是在RLHF阶段给语言模型增加一些“约束”,防止语言模型训歪(朝不受控制的方向更新,效果可能越来越差)由于DPO的优化目标是最大化对比学习中的偏好数据的对数似然,因此在优化过程中,Reward Model:奖励模型,它的作用是计算即时收益。
2025-02-08 01:05:11
700
原创 Deepseek v3&R1 学习笔记
为了解决低精度可能带来的收敛问题,团队设计了细粒度的量化方案,将 Activation 按 1*128 Tile 分组,Weight 按 128*128 block 分组,并通过提高累积精度来保证训练的稳定性。不同于Mixtral中大专家的设计(将稠密模型中的MLP结构复制8份),DeepSeek-V3采用大量“小专家”的设计,能够显著提升模型的稀疏程度。相比V2的236B总参数(21B激活参数),V3更加激进地引入256个专家,总参数量达到惊人的671B,而激活参数量仅仅增加到37B。
2025-02-05 17:29:43
643
原创 2024 ICLR Spotlight Learning-Feedback
提出了一种新的前向学习目标,即通过自适应标签嵌入的对比学习,以增强局部特征与标签嵌入之间的相似性。试图解决的主要问题是深度学习中反向传播算法面临的两个主要挑战:计算效率低下和生物学上的不可行。试图解决的问题是机器学习模型中的机器遗忘问题。关注模型中的特定权重而不是整个模型。
2025-01-30 14:08:08
508
原创 2024 CVPR Highlight Learning-Feedback
通过多尺度整体融合分支提取事件和图像的结构和纹理信息,并引入信噪比(Signal-to-Noise Ratio, SNR)引导的区域特征选择,以增强低SNR区域的图像。定义整个场景的分层神经表示、使用分层可微体积渲染从视频中学习该表示(为场景中的每个人定义一个3D形状和外观的隐式神经表示,这些表示在场景中是分层和交织的)引入新的可学习修饰符与类别绑定以捕获多个概念的属性,并通过分离和加强不同类别的注意力图来减少概念间的相互影响。试图解决的主要问题是如何学习一个通用的3D表示,以便于实现可扩展的视图合成。
2025-01-30 00:01:33
1010
原创 2024 NIPS Spotlight Learning-Feedback
试图解决的问题是如何在视觉-语言模型中有效地利用转导学习来提升模型在零样本和少样本学习任务中的性能,特别是在考虑到文本信息的情况下。提出了一种新的视角,将单个神经网络解释为许多专家的集成,这允许在不引入任何内存开销的情况下跟踪专家的后验分布。论文的核心问题是:对于给定的博弈和初始策略配置,是否总是可以构建一条满足条件的路径,使其终止于博弈的均衡状态?试图解决的问题是如何在大型语言模型的训练过程中动态选择高质量的数据批次,以提高训练的收敛速度和泛化性能。
2025-01-29 22:44:20
730
原创 论文阅读--Qwen2&2.5技术报告
后训练数据主要由两部分组成:对齐数据 D = { ( x i , y i ) } 和偏好数据 P = { ( x i , y i + , y i − ) } ,其中 x i 代表指令,y i代表满意的响应,y i +和 y i − 是对 x i 的两种响应,y i + 是比 y i − 更受偏好的选择。不同地,我们的模型采用了细粒度专家,创建了规模更小的专家,同时激活了更多的专家。与之前的Qwen模型类似,高质量的多任务指令数据被整合到Qwen2的预训练过程中,以增强上下文学习和指令跟随能力。
2025-01-20 17:17:18
1736
原创 2024 ICLR Poster Learning-Feedback
旨在解决强化学习(RL)中的现实差距(realitygap)问题。现实差距指的是在模拟环境中训练的策略在现实世界中表现不佳的现象。
2025-01-14 20:25:10
1168
原创 2024 CVPR Accep Learning-Feedback
图像包含大量冗余信息,这使得从图像中高效学习表示变得具有挑战性,提出了一种在视觉-语言对比学习过程中对图像块进行聚类掩蔽的策略:在训练过程中,随机选择图像块作为聚类中心,并计算所有块之间的成对距离,形成聚类。在距离阈值内的所有块被视为一个聚类,并被整体掩蔽。:通过使用图像块的原始RGB值作为特征表示来进行聚类,这种方法简单且避免了额外的计算复杂性。:为了提高聚类形成的准确性,引入了一个自适应层来细化距离矩阵。:为了确保批量输入的一致性,论文提出了一个最小掩蔽比例阈值,以保证不同图像的掩蔽比例一致。
2025-01-14 17:21:38
1052
原创 2024 NIPS Poster Learning-Feedback
解决的主要问题是3D对象检测中的点云处理难题:直接从点云中进行3D对象检测是一项挑战,因为点云数据通常是不规则的、稀疏的,并且没有固定的顺序。:基于Transformer的架构虽然在3D对象检测中取得了成功,但是其注意力机制的二次复杂度难以在点云分辨率增加时编码丰富的信息。:尽管状态空间模型(如Mamba)因其线性复杂度和长序列建模能力而在自然语言处理中表现出色,但它们在3D场景理解中的应用尚未被充分探索。:首先对输入点云进行最远点采样(FPS)和K近邻(KNN)采样,形成多个局部块。
2025-01-14 16:28:55
810
原创 Java Web开发
B/S模式:客户端/服务端模式无连接:每次请求一次,释放一次连接;keep-alive表示支持长链接无状态:不支持记忆能力。解决无状态的方法:cookie和session。
2024-11-25 18:35:33
468
原创 论文精读--The Llama 3 Herd of Models
主要卖点:1.Dense架构,与其他模型的MOE架构不同2.先训练出文本的能力后,加一些图像、视频等能力,偏保守的方案,因为加其他模态以后训练难收敛。
2024-11-24 19:08:28
1653
原创 书生大模型实战营(第四期)——入门岛
result的值为'```json\n{\n "model_name": "书生浦语InternLM2.5",\n "developer": "上海人工智能实验室",\n "parameter_versions": ["1.8B", "7B", "20B"],\n "max_context_length": "1M"\n}\n```'遍历字符串拿到字符数量,再减完就行。创建python文件。
2024-11-03 16:29:37
345
原创 计网课后题重点
2.试简述分组交换的要点。采用了存储转发技术。把报文(要发送的整块数据数据)等分成若干数据段,每个数据段加入控制信息组成的首部(header),构成若干分组。因为分组首部包含了目的地址和原地址等重要控制信息,每个分组才可以在互联网中独立地选择传输路径。分组交换在传送数据之前不必先占用一条端到端的通信资源,分组到达一个路由器之后先存储,查找转发表、后转发,省去建立和释放连接的开销,因此效率更高。12.因特网的两大组成部分(边缘部分与核心部分)的特点是什么?它们的工作方式各有什么特点?
2024-10-30 13:39:47
1071
原创 CV方法再学习
MobileNetV1之所以轻量,与深度可分离卷积的关系密不可分主要是两种卷积变体组合使用,分别为。逐通道卷积的一个卷积核只有一个通道,输入信息的一个通道只被一个卷积核卷积,这个过程产生的feature map通道数和输入的通道数完全一样逐通道卷积虽然减少了计算量,但是这种每个通道独立的卷积运算失去了通道维度上的信息交互。因此需要Pointwise Convolution来将这些Feature maps进行组合生成新的Feature maps。
2024-10-10 09:57:53
1158
原创 论文精读--Two-Stream Convolutional Networks for Action Recognition in Videos
我们研究了用于视频动作识别的判别性训练深度卷积网络(ConvNets)的架构。挑战在于捕捉静态帧的外观信息和帧间运动信息的互补性。我们还旨在将表现最佳的手工设计特征推广到数据驱动的学习框架中。我们的贡献有三个方面。首先,我们提出了一个双流ConvNet架构,它结合了空间和时间网络。其次,我们证明了一个在多帧密集光流上训练的ConvNet能够取得非常好的性能,尽管训练数据有限。最后,我们展示了多任务学习,应用于两个不同的动作分类数据集,可以用来增加训练数据量,并提高两者的性能。
2024-09-30 18:16:23
1378
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅