- 博客(225)
- 收藏
- 关注
原创 【论文笔记】Sign Language Video Retrieval with Free-Form Textual Queries
能够高效搜索手语视频集合的系统被强调为手语技术的一个有用应用。然而,在文献中,超越单个关键词搜索视频的问题受到了有限的关注。为了解决这一差距,本文引入了手语检索任务,该任务使用自由形式的文本查询:给定一个书面查询(例如一个句子)和一个大型的手语视频集合,目标是找到与书面查询最匹配的手语视频。我们提出通过在最近引入的大规模How2Sign美国手语(ASL)数据集上学习跨模态嵌入来解决这一任务。我们发现系统性能的关键瓶颈在于手语视频嵌入的质量,这受限于标记训练数据的稀缺性。因此,我们提出了。
2025-01-12 17:51:53
1097
原创 【论文笔记】PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models
为了参数高效地微调(PEFT)大型语言模型(LLMs),低秩适应(LoRA)方法通过两个矩阵的乘积近似模型变化ΔW∈Rm×nΔW∈Rm×n,其中A∈Rm×rA∈Rm×r和B∈Rr×nB∈Rr×n,且r≪minmnr≪minmn。AAA用高斯噪声初始化,而BBB用零初始化。LoRA冻结原始模型WWW并更新“Noise & Zero”适配器,这可能导致收敛缓慢。
2025-01-05 22:30:30
552
1
原创 【论文笔记】Direct Preference Optimization: Your Language Model is Secretly a Reward Model
尽管大规模无监督语言模型(LM)能够学习广泛的世界知识和一些推理技能,但由于其训练过程完全无监督,因此精确控制其行为是困难的。现有的获取此类可控性的方法收集人类对模型生成相对质量的标签,并微调无监督LM以符合这些偏好,通常采用基于人类反馈的强化学习(RLHF)。然而,RLHF是一个复杂且往往不稳定的程序,首先拟合一个反映人类偏好的奖励模型,然后使用强化学习对大型无监督LM进行微调,以最大化这个估计的奖励,同时不偏离原始模型太远。
2025-01-05 21:44:55
690
原创 【论文笔记】LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models
我们提出了LongLoRA,一种高效的微调方法,它通过有限的计算成本扩展了预训练大型语言模型(LLM)的上下文大小。通常,使用长上下文大小训练LLM在计算上非常昂贵,需要大量的训练时间和GPU资源。例如,在819281928192个上下文长度的训练中,自注意力层的计算成本是204820482048个上下文长度的161616倍。在本文中,我们从两个方面加速了LLM上下文扩展。一方面,尽管在推理过程中需要密集的全局注意力,但通过稀疏局部注意力可以有效地进行模型微调。
2025-01-05 21:00:39
1198
1
原创 【论文笔记】NEFTune: Noisy Embeddings Improve Instruction Finetuning
我们表明,通过简单的增强,语言模型微调可以得到改进,有时甚至可以显著提高。NEFTune在训练过程中向嵌入向量添加噪声。使用Alpaca对LLaMA-2-7B进行标准微调,在AlpacaEval上的成绩为29.79%,而使用带噪声的嵌入时,成绩上升至64.69%。NEFTune在现代指令数据集上也优于强大的基线。使用Evol-Instruct训练的模型提高了10%,ShareGPT提高了8%,OpenPlatypus提高了8%。
2025-01-05 20:17:40
1031
原创 【论文笔记】QLoRA: Efficient Finetuning of Quantized LLMs
我们提出了QLoRA,一种高效的微调方法,能够将内存使用量降低到足以在单个48GB GPU上微调一个65B参数模型,同时保持完整的16位微调任务性能。QLORA通过冻结的、4位量化预训练语言模型将梯度反向传播到低秩适配器(LoRA)。我们最好的模型系列,命名为Guanaco,在Vicuna基准测试中优于所有之前公开发布的模型,达到ChatGPT性能的99.3%,而只需在单个GPU上微调24小时。,一种信息论上对正态分布权重最优的新数据类型;,通过量化量化常数来减少平均内存占用;来管理内存峰值。
2025-01-05 19:54:08
1196
原创 【论文笔记】Contrastive Learning for Sign Language Recognition and Translation
当前端到端手语处理架构中广泛存在两个问题。一个是CTC 尖峰现象,这削弱了连续手语识别(CSLR)中的视觉表征能力。另一个是暴露偏差问题,这导致在手语翻译(SLT)推理过程中翻译错误的累积。在这篇论文中,我们通过引入对比学习来解决这些问题,旨在增强视觉级特征表示和语义级错误容忍度。具体来说,为了缓解 CTC 尖峰现象并增强视觉级表示,我们设计了一种视觉对比损失,通过最小化同一手语视频中不同增强样本帧之间的视觉特征距离,从而使模型能够进一步探索特征,利用大量未标记的帧以无监督的方式。
2024-12-29 21:18:49
511
1
原创 【论文笔记】CDFSL-V: Cross-Domain Few-Shot Learning for Videos
少量样本视频动作识别是一种有效的方法,只需少量标记示例即可识别新类别,从而减少了收集和标注大规模视频数据集的挑战。现有的视频动作识别方法依赖于同一领域的大型标记数据集。然而,这种设置并不现实,因为新类别可能来自不同的数据领域,这些领域可能具有不同的时空特征。源域和目标域之间的这种差异可能构成重大挑战,使传统的少量样本动作识别技术失效。为了解决这个问题,在本工作中,我们提出了一种新的跨域少量样本视频动作识别方法,该方法利用自监督学习和课程学习来平衡源域和目标域的信息。
2024-12-29 19:54:39
1086
原创 【论文笔记】Top-nσ: Not All Logits Are You Need
大型语言模型(LLMs)通常使用贪婪解码或低温采样进行推理任务,这反映了一种在多样性和准确性之间的权衡观念。我们通过引入top-nσ这一新颖的采样方法挑战了这一传统方法。该方法直接基于 pre-softmax logits,利用统计阈值进行操作。我们的核心见解是,logits 自然分为高斯分布的噪声区域和独立的信息区域,从而在不进行复杂概率操作的情况下,实现了高效的token过滤。与现有方法(例如,top-p、min-p)在较高温度下无意中包含更多噪声token不同,top-nσ。
2024-12-29 19:09:52
999
原创 【论文笔记】CoSign: Exploring Co-occurrence Signals in Skeleton-based Continuous Sign Language Recognition
共现信号(例如手势、面部表情和唇形模式)在连续手语识别(CSLR)中起着至关重要的作用。与RGB数据相比,骨架数据提供了一种更高效、更简洁的表示形式,为CSLR中共现信号的探索奠定了良好的基础。然而,骨架数据通常仅作为辅助视觉定位的工具,未能获得足够的关注。在本文中,我们提出了一种简单但有效的基于GCN(图卷积网络)的方法,称为CoSign,用于整合共现信号并探索骨架数据在CSLR中的潜力。
2024-12-22 21:48:44
668
原创 【论文笔记】Visual Alignment Pre-training for Sign Language Translation
手语翻译(Sign Language Translation, SLT)旨在将手语视频翻译为文本句子。尽管gloss序列为SLT中的视觉表征学习提供了有效的对齐监督信息,但标注gloss的高成本限制了其可扩展性。现有工作在gloss-free的情况下尚未取得令人满意的结果。在本研究中,我们将这一挑战归因于视觉token和文本token之间的灵活对应关系,并通过从文本句子中构建类似gloss的约束来解决这一问题。
2024-12-22 19:37:47
1407
原创 【论文笔记】CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive Learning
这项工作聚焦于手语检索——这是一个最近提出的手语理解任务。手语检索由两个子任务组成:文本到手语视频检索(T2V)和手语视频到文本检索(V2T)。与传统的视频-文本检索不同,手语视频不仅包含视觉信号,还因其作为自然语言的特性而具有丰富的语义信息。基于这一特性,我们将手语检索形式化为一个跨语言检索问题,同时也是一个视频-文本检索任务。具体而言,我们考虑了手语和自然语言的语言学特性,同时识别精细的跨语言(即手语-单词)映射,并在对比文本和手语视频的过程中,将它们投影到一个联合嵌入空间中。
2024-12-22 18:39:33
1049
原创 【论文笔记】Cross-lingual few-shot sign language recognition
全球有超过150种手语,每种手语都有许多本地变体和数千种手势。然而,为每种手语收集标注数据以训练模型是一项繁重且高度依赖专家的任务。为了解决这一问题,本文提出了在跨语言环境下的少样本手语识别 (FSSLR) 问题。核心动机是能够识别一种新的手势,即使该手势在训练过程中未曾见过,仅基于少量示例即可实现。为了解决这一问题,我们提出了一种新颖的基于嵌入的框架,该框架首先提取基于视频和手部特征的时空视觉表示,以及手部关键点估计。
2024-12-22 18:00:24
917
原创 【论文笔记】Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition
我们研究了一种新颖的跨域小样本学习任务(CD-FSL),该任务采用多模态输入和未标注的目标数据来进行第一人称视角(egocentric)动作识别。本文同时解决了CD-FSL场景下第一人称动作识别的两个关键挑战:(1)第一人称视频(如日常生活 vs 工业领域)中极大的域间差异,以及(2)现实应用中的计算成本。我们提出了MM-CDFSL,这是一种域自适应且计算效率高的方法,旨在增强对目标域的适应性并降低推理成本。为了解决第一个挑战,我们提出将多模态蒸馏引入到学生RGB模型中,使用教师模型进行训练。
2024-12-22 17:25:31
1018
原创 【论文笔记】Improving Sign Language Translation with Monolingual Data by Sign Back-Translation
尽管在手语翻译(SLT)领域已有开创性工作,但存在一个非平凡的障碍,即平行手语文本数据的有限数量。为了解决这个平行数据瓶颈,我们提出了一种手语回译(SignBT)方法,该方法将大量口语文本纳入SLT训练。利用文本到gloss翻译模型,我们首先将单语种文本回译成其gloss序列。然后,通过在特征级别上拼接从估计的gloss到手语库中的片段,生成配对的手语序列。最后,合成的平行数据作为端到端训练编码器-解码器SLT框架的强大补充。为了促进SLT研究,我们进一步贡献了CSL-Daily。
2024-12-15 22:24:07
766
原创 【论文笔记】Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
我们介绍了Florence-2,这是一种新型的视觉基础模型,具有统一、基于提示的表示,适用于各种计算机视觉和视觉-语言任务。尽管现有的大型视觉模型在迁移学习方面表现出色,但它们在执行简单指令的多样化任务时遇到了困难,这种能力意味着需要处理各种空间层次和语义粒度的复杂性。Florence-2被设计为以文本提示作为任务指令,并以文本形式生成期望的结果,无论是描述、目标检测、定位还是分割。这种多任务学习设置需要大规模、高质量的标注数据。
2024-12-15 19:36:33
693
原创 【论文笔记】Editing Models with Task Arithmetic
改变预训练模型的行为——例如,提高其在下游任务上的性能或减轻在预训练过程中学习的偏差——是开发机器学习系统时的常见做法。在本工作中,我们提出了一种以任务向量为中心的新范式来引导神经网络的行为。任务向量指定了预训练模型权重空间中的一个方向,使得在该方向上的移动可以改善任务性能。我们通过从在任务上微调后的模型权重中减去预训练模型的权重来构建任务向量。我们表明,这些任务向量可以通过如否定和加法等算术运算进行修改和组合,并且相应地引导结果模型的行为。
2024-12-15 18:42:41
1041
原创 【论文笔记】Visual Prompt Tuning
当前在适应预训练模型的方法中,涉及更新所有骨干参数,即全量微调。本文介绍了视觉提示微调(VPT),作为大规模视觉Transformer模型中全量微调的高效且有效的替代方案。受到最近在大规模语言模型高效调优方面的进展的启发,VPT在保持模型骨干冻结的同时,仅在输入空间引入少量(小于模型参数的1%)可训练参数。通过在广泛下游识别任务上的大量实验,我们表明VPT相较于其他参数高效调优协议实现了显著的性能提升。
2024-12-15 17:07:37
1372
原创 【论文笔记】CLIP-guided Prototype Modulating for Few-shot Action Recognition
从大规模对比语言图像预训练如CLIP近期在众多下游任务中展现出显著的成功,但在具有挑战性的小样本动作识别(FSAR)任务上仍处于探索阶段。在本工作中,我们旨在将CLIP强大的多模态知识迁移,以缓解数据稀缺导致的原型估计不准确问题,这是低样本环境中的关键问题。为此,我们提出了一种名为CLIP-FSAR的CLIP引导原型调制框架,它包含两个关键组件:一个视频-文本对比目标和一个原型调制。具体来说,前者通过对比视频及其对应的类别文本描述,弥合了CLIP与小样本视频任务之间的任务差异。
2024-12-15 16:16:23
898
原创 【论文笔记】How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Sui
本文介绍了InternVL 1.5,这是一个开源的多模态大型语言模型(MLLM),旨在弥合开源和专有商业模型在多模态理解能力之间的差距。强大的视觉编码器:我们探索了一种连续学习策略,用于大规模视觉基础模型InternViT-6B,提升了其视觉理解能力,使其能够在不同的LLM中进行迁移和复用。动态高分辨率:根据输入图像的宽高比和分辨率,我们将图像划分为1到40块,每块448×448像素,支持高达4K分辨率的输入。
2024-12-08 21:40:47
1103
原创 【论文笔记】Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth
我们提出了一种名为的新型多模态大语言模型家族,该模型通过 Florence-2 生成视觉基础模型增强了视觉表示。与广泛使用的基于对比学习的 CLIP 风格视觉 Transformer 不同,Florence-2 能够捕捉不同层次和方面的视觉特征,这使得它们更灵活,可以适应各种下游任务。我们提出了一种新的特征融合架构和创新训练方案,有效地将 Florence-2 的视觉特征集成到预训练的 LLM,如 Phi 3.5 和 LLama 3 中。
2024-12-08 20:58:16
746
原创 【论文笔记】VisionZip: Longer is Better but Not Necessary in Vision Language Models
近期视觉-语言模型在性能上的提升是通过增加视觉token的长度实现的,这使得它们比文本token长得多,并显著提高了计算成本。然而,我们发现流行的视觉编码器(如CLIP和SigLIP)生成的视觉token存在大量冗余。为了解决这个问题,我们提出了VisionZip,这是一种简单而有效的方法,它选择一组信息token作为语言模型的输入,减少视觉token的冗余,提高效率,同时保持模型性能。
2024-12-08 20:15:15
1014
原创 【论文笔记】LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Al
视频语言(VL)预训练在多个下游任务中取得了显著的进步。然而,当前的VL预训练框架难以扩展到多个模态(N模态,N≥3),超出视觉和语言之外。因此,我们提出了,将语言作为不同模态之间的纽带,因为语言模态得到了充分探索且包含丰富的语义。具体来说,我们冻结了VL预训练获得的语言编码器,然后使用对比学习训练其他模态的编码器。结果,所有模态都被映射到一个共享的特征空间,实现了多模态语义对齐。
2024-12-08 17:43:20
726
原创 【论文笔记】BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues
近年来,在细粒度手势和动作分类以及机器翻译方面的进展,预示着自动手语识别成为现实的可能。实现这一目标的关键障碍是缺乏适当的训练数据,这源于手语标注的高度复杂性和合格标注者的有限供应。在本研究中,我们提出了一种新的可扩展方法,用于收集连续视频中的手语识别数据。我们利用广播视频的弱对齐字幕以及关键词检测方法,自动定位1000小时视频中1000个手势词汇的手语实例。我们展示了如何利用手势者的口型提示从视频数据中获得高质量的手语标注——结果是BSL-1K。
2024-12-08 17:03:41
657
原创 【论文笔记】A Token-level Contrastive Framework for Sign Language Translation
手语翻译(SLT)是一种有望弥合聋人与听力人士之间沟通鸿沟的技术。最近,研究人员采用了需要大规模语料库进行训练的神经机器翻译(NMT)方法来实现SLT。然而,公开可用的SLT语料库非常有限,这导致了token表示的崩溃和生成token的不准确。为了缓解这一问题,我们提出了ConSLT,这是一种新的针对手语翻译的token级对比学习框架,通过将token级对比学习融入SLT解码过程来学习有效的token表示。
2024-12-01 21:05:43
836
原创 【论文笔记】A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation
本文提出了一种简单的迁移学习基线用于手语翻译。现有的手语数据集(例如PHOENIX-2014T、CSL-Daily)仅包含约1万至2万对手语视频、gloss标注和文本,这比训练口语翻译模型的典型平行数据小一个数量级。因此,数据成为训练有效手语翻译模型的瓶颈。为了缓解这个问题,我们提出从包含大量外部监督的通用领域数据集逐步预训练模型,直至领域内数据集。
2024-12-01 20:48:34
312
原创 【论文笔记】Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation
手语翻译(SLT)是一项具有挑战性的任务,涉及将手语图像翻译成口语。为了使SLT模型成功完成这项任务,它们必须弥合模态差距,并识别手语组件的细微变化,以准确理解其含义。为了解决这些挑战,我们提出了一种新颖的gloss-free SLT框架,称为Multimodal Sign Language Translation(MMSLT),该框架利用了现成多模态大型语言模型(MLLMs)的表征能力。具体来说,我们使用MLLMs生成手语组件的详细文本描述。
2024-12-01 20:31:17
928
原创 【论文笔记】Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions
这篇论文主要讨论了如何解决多模态大语言模型中的幻觉问题。作者提出了一个名为MagPrompt的简单有效方法,通过极其简单的指令来处理幻觉问题。多模态大语言模型应该更加关注图像;当图像与模型内部知识存在冲突时,多模态大语言模型应优先考虑图像。MagPrompt不需要训练即可使用,并且可以应用于开源和闭源模型,如GPT-4o和Gemini-pro。实验结果表明,MagPrompt在多个数据集上表现良好,其效果甚至比更复杂的方法VCD还要好。
2024-11-30 23:57:06
923
原创 【论文笔记】Towards Online Continuous Sign Language Recognition and Translation
研究连续手语识别(CSLR)对于弥合聋人和听力正常人士之间的沟通差距至关重要。许多先前的研究已经使用连接主义时间分类(CTC)损失来训练他们的模型。在推理过程中,这些基于CTC的模型通常需要整个手语视频作为输入来做出预测,这个过程被称为离线识别,它存在高延迟和大量内存使用的问题。在本工作中,我们迈出了在线CSLR的第一步。开发手语字典;在字典上训练孤立手语识别模型;对输入手语序列采用滑动窗口方法,将每个手势片段输入到优化后的模型进行在线识别。
2024-11-30 18:29:12
1069
原创 【论文笔记】Number it: Temporal Grounding Videos like Flipping Manga
视频大型语言模型(Vid-LLMs)在理解视频内容以进行问答对话方面取得了显著进展。然而,它们在将这种视觉理解扩展到需要精确时间定位的任务上存在困难,这些任务被称为视频时间定位(VTG)。为了解决这一差距,我们引入了数字提示(NumPro),这是一种新颖的方法,它通过为每个视频帧添加独特的数字标识符,使Vid-LLMs能够将视觉理解与时间定位相结合。将视频视为一系列编号的帧图像,NumPro将VTG转化为一个直观的过程:按顺序翻阅漫画分镜。
2024-11-24 18:45:20
1048
1
原创 【论文笔记】Improved Baselines with Visual Instruction Tuning
大型多模态模型(LMM)最近在视觉指令调整方面取得了令人鼓舞的进展。在本文中,我们首次系统地研究了在LLaVA框架下,LMM在受控环境中的设计选择。我们表明,LLaVA中的全连接视觉-语言连接器出人意料地强大且数据高效。通过简单的LLaVA修改,即使用CLIP-ViT-L-336px进行MLP投影,并添加以学术任务为导向的VQA数据以及带有响应格式提示,我们建立了更强的基线,在11个基准测试中达到了最先进水平。
2024-11-24 17:57:47
1437
原创 【论文笔记】Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
大型视觉-语言模型(LVLM)提高了视觉-语言理解中各种下游任务的表现。大多数现有方法将图像和视频编码到不同的特征空间中,然后将它们作为输入馈送到大语言模型。然而,由于缺乏图像和视频的统一标记化,即投影前的错位,大语言模型(LLM)从多个投影层中学习多模态交互变得具有挑战性。在这项工作中,我们将视觉表示统一到语言特征空间,以推动基础LLM向统一的LVLM发展。因此,我们建立了一个简单但稳健的LVLM基线,即,它从图像和视频的混合数据集中学习,相互增强。
2024-11-24 16:32:39
625
原创 【论文笔记】LLaVA-o1: Let Vision Language Models Reason Step-by-Step
大型语言模型在推理能力方面取得了显著进步,尤其是在推理时间扩展方面,如OpenAI的o1模型所示。然而,当前的视觉-语言模型(VLMs)在执行系统化和结构化推理方面往往存在困难,尤其是在处理复杂的视觉问答任务时。在本研究中,我们引入了LLaVA-o1,这是一种新型的VLM,旨在进行自主的多阶段推理。与思维链提示不同,LLaVA-o1独立进行总结、视觉解释、逻辑推理和结论生成的连续阶段。这种结构化方法使LLaVA-o1在推理密集型任务上的精度得到了显著提高。为了实现这一点,我们编译了。
2024-11-23 20:05:34
1550
原创 【论文笔记】BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Dev
多模态大型语言模型(MLLMs)的兴起和日益普及,在提升日常生活的各个方面具有巨大潜力,从改善沟通到促进学习和问题解决。作为日常生活中的重要伴侣,手机是MLLMs最有效和易于部署的平台,使其能够无缝集成到日常任务中。然而,由于内存大小和计算能力的限制,在手机上部署MLLMs面临着挑战,这使得在没有大量优化的情况下实现平滑和实时处理变得困难。在本文中,我们提出了,这是一种专门针对在移动平台上高效部署MLLMs的算法和系统协同设计方法。
2024-11-23 16:37:38
599
原创 【论文笔记】Improving Gloss-free Sign Language Translation by Reducing Representation Density
gloss-free手语翻译(SLT)旨在开发无需昂贵gloss标注的、性能良好的SLT系统,但目前仍显著落后于gloss-based的翻译方法。在本文中,我们确定了一个可能成为gloss-free SLT性能瓶颈的表示密度问题。具体来说,表示密度问题描述了语义上不同的手势在特征空间中的视觉表示往往紧密排列在一起,这使得gloss-free方法难以区分不同的手势,并导致性能急剧下降。为了解决表示密度问题,我们引入了一种简单但有效的对比学习策略,即SignCL。
2024-11-18 21:10:15
649
原创 【论文笔记】LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models
在这项工作中,我们提出了一种新颖的方法来解决视觉语言模型(VLMs)在视频和图像理解中的token生成挑战,称为LLaMA-VID。当前的VLMs虽然在图像描述和视觉问答等任务上表现出色,但在处理长视频时由于视觉token过多而面临计算负担。LLaMA-VID通过用两个不同的token来表示每一帧,即上下文token和内容token,来解决这个问题。上下文token根据用户输入编码整体图像上下文,而内容token封装了每一帧中的视觉线索。
2024-11-17 19:43:16
1367
原创 【论文笔记】P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Task
Prompt tuning,仅对冻结的语言模型进行连续提示调整,在训练过程中显著降低了每个任务的存储和内存使用。然而,在自然语言理解(NLU)的背景下,先前的研究表明,Prompt tuning对于正常规模的预训练模型表现不佳。我们还发现,现有的Prompt tuning方法无法处理困难的序列标注任务,这表明其缺乏通用性。我们提出一个新颖的实证发现,经过适当优化的Prompt tuning可以在广泛的模型规模和NLU任务中普遍有效。它在只有0.1%-3%调整参数的情况下,与微调的性能相匹配。
2024-11-17 17:43:51
649
原创 【论文笔记】LoRA: Low-Rank Adaptation of Large Language Models
自然语言处理的一个重要范例是在通用领域数据上进行大规模预训练,并适应特定任务或领域。随着我们预训练更大规模的模型,全量微调,即重新训练所有模型参数,变得越来越不可行。以GPT-3 175B为例——部署独立实例的微调模型,每个模型都有175B个参数,成本过高。我们提出了低秩适应,或称LoRA,它冻结预训练模型的权重,并将可训练的秩分解矩阵注入到Transformer架构的每一层,极大地减少了下游任务的可训练参数数量。
2024-11-17 17:05:32
1218
原创 【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale
主要阻碍手语翻译(SLT)进步的因素是数据稀缺。目前网络上可用的手语数据中,很大一部分由于缺乏对齐字幕,无法用于训练监督模型。此外,使用大规模网络爬取的数据集进行SLT扩展存在隐私风险,因为其中包含生物识别信息,而SLT技术的负责任开发应考虑到这一点。在本研究中,我们提出了一种两阶段框架,用于大规模隐私感知SLT,以解决这两个问题。我们引入了SSVP-SLT,该系统利用匿名和无标注视频上的自监督视频预训练,随后在精心挑选的并行数据集上进行监督SLT微调。
2024-11-16 17:39:08
1420
原创 【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs
手语,全球约7000万聋人使用,是一种视觉语言,传达视觉和语境信息。基于视觉的手语识别(SLR)和翻译(SLT)的当前方法由于数据集多样性有限和忽略语境相关信息,在对话场景中存在困难。为了解决这些挑战,我们引入了SCOPE(基于LLM嵌入的手语语境处理),这是一种新颖的语境感知视觉SLR和SLT框架。对于SLR,我们通过多模态编码器利用对话语境来增强Gloss级识别。对于随后的SLT,我们通过结合先前的对话语境进一步微调大型语言模型(LLM)。
2024-11-16 16:46:34
1076
电动汽车数据(1997 - 2024 年)
2024-08-12
各国生活成本指数数据集
2024-08-12
jupyter notebook关闭后连续弹出提示框,多次点击确认后才停止弹出。
2022-08-17
TA创建的收藏夹 TA关注的收藏夹
TA关注的人