AI专题精讲-CSDN博客

原创 LXMERT: 从Transformer中学习跨模态编码表示

本文提出了一种跨模态Transformer模型LXMERT，用于学习视觉与语言之间的对齐关系。该模型包含三个编码器：语言编码器、视觉对象关系编码器和跨模态编码器，通过自注意力与交叉注意力机制进行多模态交互。为了建立模态内和跨模态联系，作者设计了五种预训练任务，包括掩码语言建模、掩码物体预测、跨模态匹配和视觉问答。实验表明，在VQA和GQA数据集上达到SOTA性能，在NLVR2视觉推理任务上将准确率提升22%。消融研究验证了模型组件和预训练策略的有效性，注意力可视化分析进一步展示了跨模态交互机制。该工作为视觉

2025-06-12 10:29:57 153

原创 UnivNet：一种具有多分辨率谱图判别器的神经声码器，用于高保真波形生成

大多数神经声码器使用带限的梅尔谱图生成波形。如果使用全带谱特征作为输入，声码器可以提供尽可能多的声学信息。然而，在一些使用全带梅尔谱图的模型中，会出现过度平滑问题，生成的谱图不够清晰。为了解决这个问题，我们提出了UnivNet，这是一种实时合成高保真波形的神经声码器。受到语音活动检测领域研究的启发，我们加入了一个多分辨率谱图判别器，采用使用不同参数集计算的多个线性谱图幅度。通过使用全带梅尔谱图作为输入，我们期望通过增加一个使用多分辨率谱图作为输入的判别器，生成高分辨率的信号。

2025-06-11 08:43:23 183

原创 Moonshine：用于实时转录和语音指令的语音识别

在本节中，我们在结尾前简要讨论了本工作的局限性。架构与优化器。与此类研究一样，许多不同的模型架构变体都值得探索。同样，最近在优化器方面的进展——特别是Shampoo（Gupta等，2018）和SOAP（Vyas等，2024）——在提升我们架构中的WER表现方面显示出潜力。对这些模型架构和训练方法进行消融研究，将有助于社区更深入理解模型的局限性。但由于资源限制，尤其是GPU的使用成本较高，这些研究超出了本文的范围。因此，我们基于作者的经验和对相关文献的广泛调研，选择了本文中的架构和优化器。

2025-06-10 08:48:31 794

原创 MMS: 将语音技术扩展到1000多种语言

扩展语音技术的语言覆盖范围有可能为更多人提供信息获取的途径。然而，目前的语音技术仅支持大约一百种语言，这仅占全球7000多种语言的一小部分。Massively Multilingual Speech（MMS）项目通过根据任务的不同，增加支持的语言数量10到40倍。其主要特点是基于公开的宗教文本阅读构建的新数据集，并有效地利用了自监督学习。

2025-06-09 08:47:58 296

原创 LLaVa：视觉指令微调

LLaVA：基于GPT-4生成数据训练的多模态语言-视觉助手本文首次尝试利用纯语言模型GPT-4生成多模态指令跟随数据，并在此基础上训练了端到端的语言-视觉模型LLaVA。通过连接CLIP视觉编码器和Vicuna语言解码器，并在158K生成的指令数据上进行微调，LLaVA展现出令人印象深刻的多模态对话能力，在未见过任务上可达GPT-4 85.1%的性能。当与GPT-4协同工作时，在Science QA数据集上达到92.53%的最新准确率。研究还构建了包含多样化任务的评测基准LLaVA-Bench。作者公开

2025-06-06 09:48:40 17

原创 CLIP: 从自然语言监督中学习可迁移的视觉模型

摘要本文提出了一种名为CLIP（Contrastive Language-Image Pre-training）的新方法，通过从4亿对互联网图像-文本数据中学习，实现了计算机视觉领域的突破性进展。该方法采用对比学习框架，预测图像与文本描述的匹配关系，而非传统的固定类别分类。实验表明，CLIP在30多个计算机视觉任务上展现出强大的zero-shot迁移能力，包括OCR、动作识别和细粒度分类等，其表现与完全监督模型相当。值得注意的是，CLIP在ImageNet上的zero-shot准确率与使用128万训练样本

2025-06-04 09:48:22 754

原创 Nougat：用于学术文档的神经光学理解

本文提出Nougat模型，一种基于视觉Transformer的OCR系统，用于将科学文档PDF转换为结构化标记语言。该模型通过Swin Transformer编码器处理文档图像，使用mBART解码器自回归生成标记文本，有效保留了数学表达式等语义信息。作者构建了包含arXiv论文、PMC和IDL文档的数据集，并设计了数据增强策略提升模型鲁棒性。实验表明，该方法在科学文本识别上优于传统OCR工具，为机器可读科学知识的获取提供了新思路。模型和代码已开源以促进相关研究。

2025-06-02 10:58:58 1031

原创将 `/data` 盘中的所有数据迁移到 `/home/user/data` 目录下，然后将该磁盘与另一块磁盘组建 RAID 1

摘要：在Ubuntu 24.04系统中将单磁盘数据迁移到RAID 1阵列的完整流程：1) 使用rsync将/data数据迁移至/home/user/data备份；2) 卸载原磁盘并清除分区信息；3) 使用mdadm创建RAID 1阵列（/dev/md0）；4) 格式化新阵列为ext4并挂载到/data；5) 将备份数据恢复至新阵列并配置/etc/fstab实现自动挂载。操作包含详细的命令示例和状态验证步骤，强调数据迁移安全性，最后提供RAID状态检查方法。（150字）

2025-06-01 16:06:50 442

原创参数高效的提示调优实现了通用且校准的神经文本检索器

提示调优尝试在预训练模型中仅更新少量任务特定参数。在语言理解和生成任务上，其表现已可与全参数微调相媲美。在本工作中，我们研究了用于神经文本检索器的提示调优问题。我们提出了一种参数高效的提示调优方法，适用于文本检索的领域内、跨领域及跨主题设置。通过广泛分析，我们展示了该策略能够缓解基于微调的检索方法面临的两个问题——参数效率低和泛化能力弱。尤其值得注意的是，该方法显著提升了检索模型在域外零样本泛化能力。仅通过更新模型参数的0.1%，提示调优策略便能帮助检索模型实现优于传统全参数更新方法的泛化性能。

2025-06-01 10:54:57 33

原创 UDOP：统一视觉、文本与版式的信息以实现通用文档处理

UDOP提出了一种创新的通用文档处理模型，首次统一了文档AI中的文本、图像和布局模态，通过视觉-文本-布局变换器实现多模态统一表示与任务集成。该模型采用布局引导的嵌入方法增强跨模态交互，将所有下游任务转化为序列生成框架，并引入新颖的自监督目标。UDOP在1100万未标注文档和180万标注数据上进行预训练，在8项文档理解任务中达到最先进水平，同时具备文档生成与编辑能力，成为首个实现高质量神经文档编辑的模型。

2025-05-31 09:13:33 799

原创 RAG：面向知识密集型自然语言处理任务的检索增强生成

论文摘要本文提出了一种检索增强生成(RAG)模型，将参数化记忆(BART)与非参数化记忆(维基百科密集索引)相结合用于语言生成任务。RAG包含两种实现方式：RAG-Sequence在整个生成过程中使用同一检索文档，RAG-Token则允许每个token使用不同文档。实验表明，RAG在开放域问答任务(NQ、WebQuestions、CuratedTrec)上达到新SOTA，在知识密集型生成任务中比纯参数化模型生成更准确、多样化的文本。该方法通过端到端训练检索器(DPR)和生成器(BART)，无需特定任务架构

2025-05-30 08:48:16 115

原创 Global Pointer：一种新颖且高效的基于跨度的命名实体识别方法

本文提出了一种新颖的基于跨度的命名实体识别方法Global Pointer（GP）。针对传统序列标注方法难以处理嵌套实体的问题，GP引入了相对位置编码的乘法注意力机制，通过分别建模实体起始和结束位置来提升识别效果。为解决标签不平衡问题，设计了一种新型分类损失函数。同时，提出参数缩减技术以降低计算成本。实验结果表明，GP在多个基准数据集上优于现有方法，且所提出的损失函数比传统softmax和交叉熵损失表现更优。该方法为命名实体识别任务提供了一种高效且有效的解决方案。

2025-05-29 08:52:02 293

原创 wav2vec 2.0：一种自监督学习语音表示的框架

本文提出wav2vec 2.0框架，首次通过语音音频自监督学习实现超越半监督方法的语音识别性能。该模型在潜在空间中对语音进行掩码处理，通过对比任务联合学习离散语音单元和上下文化表示。实验表明：使用全量标注数据时，Librispeech测试集词错率低至1.8/3.3；仅用1小时标注数据即超越之前最佳半监督方法；在10分钟标注数据+53,000小时无标注数据条件下仍能达到4.8/8.2词错率。该方法创新性地端到端联合学习量化表示和上下文依赖，为低资源语言语音识别提供了可行方案，显著降低了语音识别对标注数据的依赖

2025-05-28 13:50:47 963

原创 TAPAS：通过预训练进行弱监督表格解析

本文提出了TAPAS模型，这是一种无需生成逻辑形式的表格问答方法。TAPAS通过扩展BERT架构，引入表格结构感知的嵌入表示，直接预测表格单元格子集和聚合操作来回答问题。模型创新性地设计了针对表格数据的预训练方法，在630万维基百科表格上进行掩码语言模型训练。实验表明，TAPAS在SQA、WIKISQL和WIKITQ三个数据集上表现优异，其中在对话式SQA上将准确率从55.1提升至67.2，在其他数据集上也达到或超越现有技术水平。此外，该模型在跨数据集迁移学习中展现出4.2个百分点的优势。TAPAS的主要优

2025-05-27 08:41:14 764

原创 MOBILEVIT: 轻量级、通用且适用于移动设备的视觉Transformer

摘要本文提出MobileViT，一种结合CNN和Transformer优势的轻量级视觉网络架构。针对移动设备视觉任务需求，MobileViT通过引入MobileViT块，将传统卷积中的局部处理替换为Transformer的全局处理，实现了参数高效（约600万参数）且低延迟的全局建模能力。实验表明，在ImageNet-1k分类任务上，MobileViT达到78.4%的Top-1准确率，分别超越轻量级CNN代表MobileNetv3和ViT代表DeIT 3.2%和6.2%；在MS-COCO检测任务上，相较Mo

2025-05-26 08:47:49 671

原创 Rephrase and Respond ：让大语言模型为自己提出更优的问题

大型语言模型（LLMs）与人类之间存在思维框架偏差，导致模型对用户问题的理解出现偏差。本文提出"重述并回答"（RaR）方法，通过让LLM在单次prompt中自动重述问题并补充细节来提升回答质量。实验表明，RaR能显著提高多种任务的模型性能，且与Chain-of-Thought方法具有互补性。该方法无需训练，可广泛应用于zero-shot场景，为提升LLM表现提供了高效经济的新思路。

2025-05-25 15:45:43 57

原创 REACT：在语言模型中协同推理与行动

摘要本文提出ReAct方法，通过交错生成推理轨迹与任务动作，实现语言模型中推理与行动的协同。在HotpotQA和Fever问答任务中，ReAct通过与Wikipedia API交互，克服了纯推理的幻觉问题，产生可解释的解决轨迹。在ALFWorld和WebShop决策任务中，仅用少量示例就超越模仿学习和强化学习方法34%和10%的成功率。实验表明，ReAct能动态调整计划、处理异常，并通过外部交互增强推理，在性能、可解释性和泛化性方面均优于仅推理或仅行动的基线方法。该方法为语言模型的任务求解提供了新范式，未

2025-05-24 10:23:21 37

原创 LayoutLM：文档图像理解的文本与布局联合预训练

本文提出了LayoutLM模型，首次在单一框架中联合学习文本与布局信息，用于文档图像理解任务。LayoutLM通过引入二维位置嵌入和图像嵌入，结合BERT模型，有效捕捉文档中的文本、布局和视觉信息。预训练阶段采用Masked Visual-Language Model（MVLM）和Multi-label Document Classification（MDC）任务，显著提升了模型在表单理解、收据信息提取和文档图像分类等下游任务中的性能。实验结果表明，LayoutLM在多个基准数据集上均取得了新的最优结果。代

2025-05-23 08:43:19 819

原创 Chain-of-Knowledge：通过对异构来源知识的动态适应，实现大语言模型的知识落地

Chain-of-Knowledge (CoK) 是一种新颖的框架，旨在通过动态整合来自异构知识源的信息来增强大语言模型（LLM）的推理能力，减少幻觉现象。CoK 包含三个阶段：推理准备、动态知识适应和答案整合。在推理准备阶段，CoK 生成初步推理链并识别相关知识领域。如果多个样本答案未达成共识，CoK 会从识别出的领域中引入知识，逐步修正推理过程。与以往依赖非结构化数据的方法不同，CoK 同时利用结构化知识源（如 Wikidata 和表格）和非结构化数据，提供更可靠的事实信息。CoK 还引入了自适应查

2025-05-22 08:50:42 27

原创 POP2PIANO：基于流行音频的钢琴伴奏生成

流行音乐的钢琴改编广受欢迎，但自动生成此类改编的研究仍显不足，主要原因是缺乏同步的流行音乐与钢琴改编数据对。本文提出了Pop2Piano，一种基于transformer的模型，能够直接从流行音乐音频生成钢琴改编，无需依赖旋律与和弦提取模块。我们构建了一个包含300小时同步数据的PSP数据集，并展示了Pop2Piano模型在该数据集上的训练效果，证明了其生成可信钢琴改编作品的能力。此外，我们还公开了数据集和预处理代码，并在Colab上提供了Pop2Piano的演示程序。

2025-05-21 08:44:19 588

原创 FAIRSEQ S2T：使用 FAIRSEQ 进行快速语音到文本建模

FAIRSEQ S2T是FAIRSEQ框架的扩展，专注于语音到文本（S2T）任务，如端到端语音识别和语音翻译。该工具包提供了从数据预处理到模型训练和推理的完整工作流程，支持基于RNN、Transformer和Conformer的先进模型。FAIRSEQ S2T集成了机器翻译和语言模型，支持多任务学习和迁移学习，并提供了丰富的评估和可视化工具。实验表明，FAIRSEQ S2T在多个基准测试中达到了最先进的性能，展示了其高效性和可扩展性。该工具的开源代码和详细文档可在GitHub上获取，为研究人员和开发者提供了

2025-05-20 08:53:23 1020

原创 ARIA：一个开源的、多模态原生混合专家模型

ARIA是一个开源的多模态原生AI模型，采用混合专家架构，具备顶尖的多模态、语言和编程任务处理能力。其视觉标记和文本标记分别激活39亿和35亿参数，性能超越Pixtral-12B和Llama3.2-11B，并在多模态任务中与最优专有模型相当。ARIA通过四阶段训练流程，逐步增强语言理解、多模态理解、长上下文窗口和指令跟随能力。模型基于Apache 2.0协议开源，支持单GPU微调，便于实际应用中的部署与定制。ARIA的推出填补了开源多模态原生模型的空白，为多模态AI应用提供了强大支持。

2025-05-19 08:47:23 1038

原创 CHAIN-OF-TABLE: 推理链中的演化表格用于表格理解

大语言模型（LLMs）在表格推理任务中展现出潜力，但如何有效利用表格数据进行推理仍具挑战。本文提出 CHAIN-OF-TABLE 框架，通过将表格数据作为中间思维的代理，嵌入到推理链中。该框架引导 LLMs 迭代生成操作并更新表格，形成表格形式的推理链，动态规划每一步操作。表格的持续演化过程展现了解决表格问题的推理过程，携带结构化中间结果信息，提升预测准确性。实验表明，CHAIN-OF-TABLE 在 WikiTQ、FeTaQA 和 TabFact 基准数据集上，使用多种 LLM 模型均取得了新的 SOTA

2025-05-18 16:04:10 57

原创 Chain of code：使用语言模型增强的代码模拟器进行推理

本文提出了一种名为 Chain of Code (CoC) 的方法，旨在提升语言模型（LMs）在复杂推理任务中的表现。CoC 结合了代码的结构化优势与语言模型的语义推理能力，通过生成代码并选择性模拟解释器执行来解决问题。具体而言，CoC 鼓励语言模型将语义子任务以伪代码形式表达，解释器执行可运行的部分，而无法执行的代码则由语言模型模拟（称为 LMulator）。实验表明，CoC 在多个基准测试中表现优异，尤其在 BIG-Bench Hard 任务上达到了 84% 的准确率，比 Chain of Though

2025-05-17 14:42:13 27

原创 Language models are few-shot learners：语言模型是小样本学习者

近期的研究表明，通过在大规模文本语料上进行预训练，再针对特定任务进行微调，可以在许多自然语言处理任务和基准测试中取得显著提升。虽然这种方法在架构上通常与任务无关，但仍然需要包含成千上万个示例的任务特定微调数据集。相比之下，人类通常只需几个示例或简单的指令就能完成新的语言任务——而当前的自然语言处理系统在这方面仍显不足。在本文中，我们展示了将语言模型规模扩大可以极大提升其在任务无关的小样本学习设置中的表现，有时甚至可以与先前基于微调的最先进方法相媲美。

2025-05-16 07:24:23 37

原创 Donut：无OCR文档理解Transformer

本文提出了一种名为Donut的新型无OCR视觉文档理解（VDU）模型，旨在解决传统基于OCR方法的高计算成本、语言或文档类型不灵活以及OCR错误传播等问题。Donut采用端到端的Transformer架构，直接从文档图像提取信息，无需依赖OCR引擎。模型通过预训练和微调两阶段实现：预训练阶段通过合成数据生成器SynthDoG学习读取文本，微调阶段针对具体任务（如文档分类、信息提取等）进行优化。实验表明，Donut在多个VDU任务上实现了最先进的性能，尤其在速度和准确性方面表现优异。此外，Donut的合成数据

2025-05-15 09:08:08 910

原创 AUTOPROMPT：通过自动生成的提示从语言模型中引出知识

摘要预训练语言模型（LMs）在微调后表现出色，但其在预训练阶段学到的知识类型尚不明确。传统方法如填空测试（cloze test）可用于评估这些知识，但手动编写提示（prompt）耗时且效果不稳定。为此，研究者提出了 AUTOPROMPT，一种基于梯度引导搜索的自动提示生成方法，能够为多种任务创建提示。实验表明，AUTOPROMPT 生成的提示能够有效激发掩码语言模型（MLMs）在情感分析、自然语言推理等任务中的表现，甚至在某些情况下媲美有监督模型。此外，AUTOPROMPT 在事实性知识检索任务中表现优于

2025-05-14 10:03:15 40

原创 APrompt：用于高效适配预训练语言模型的注意力提示调优方法

本文提出了一种新颖的注意力提示调优方法 APROMPT，用于高效适配大规模预训练语言模型。传统的 prompt tuning 方法仅在输入层引入 soft prompt，限制了其性能。APROMPT 在 Transformer 的 self-attention 层中引入 query、key 和 value prompt，通过引导注意力计算来提升模型适配效果。实验结果表明，APROMPT 在 SuperGLUE 基准测试上优于当前最先进的 prompt tuning 和全量微调方法。此外，消融实验验证了所设计

2025-05-13 08:38:25 42

原创 ART: 面向大语言模型的自动多步推理与工具使用

大型语言模型（LLMs）可以通过生成中间的思维链（Chain of Thought, CoT）推理步骤，在少样本或零样本的设置下执行复杂的推理任务。此外，每一个推理步骤还可以依赖外部工具来支持 LLM 核心能力之外的计算（如搜索/运行代码）。此前关于 CoT 提示和工具使用的研究通常依赖于为特定任务手工设计的示例，以及模型生成与工具调用之间精心编排的交替过程。我们提出了一种名为的框架，它使用冻结的 LLM 自动将中间推理步骤生成为程序。面对一个新的任务，ART 会从任务库中选择包含多步推理和工具使用的示例。

2025-05-12 08:51:33 50

原创 LeViT：具有卷积网络外形的视觉Transformer，用于加速推理

本文提出了一种名为LeViT的混合神经网络架构，旨在优化图像分类任务中的速度与准确率之间的权衡。LeViT结合了卷积神经网络和transformer的优点，特别是在高度并行硬件上的表现优异。通过引入多阶段transformer架构、高效的计算patch描述子、可学习的attention bias以及重新设计的Attention-MLP模块，LeViT在ImageNet数据集上的top-1准确率达到80%时，在CPU上的运行速度是EfficientNet的5倍。实验验证了LeViT在速度与准确率权衡方面的显著

2025-05-11 10:45:38 919

原创 Active-Prompt：结合思维链的主动提示用于大型语言模型

本文提出了一种名为Active-Prompt的新方法，旨在优化大型语言模型（LLMs）在复杂推理任务中的表现。传统的链式思维（CoT）推理prompt依赖于固定的人工标注示例，这些示例可能并非对所有任务都最有效。Active-Prompt通过引入不确定性驱动的主动学习策略，从特定任务中选取最具不确定性的问题，由人工标注其推理链和答案，从而构建更有效的示例集。实验结果表明，该方法在八个复杂推理任务上均取得了显著的性能提升，验证了其在不同任务中的适应性和有效性。本文的贡献在于提出了一种选择最有价值问题标注的策略

2025-05-11 10:41:52 39

原创 MGP-STR：用于场景文本识别的多粒度预测

场景文本识别（STR）是计算机视觉领域的重要研究方向，近年来引入语言知识成为提升模型性能的关键趋势。本研究提出了一种基于Vision Transformer（ViT）的视觉STR模型，并通过多粒度预测（MGP）策略隐式融合语言信息。该模型在输出空间中引入子词表示（BPE和WordPiece），作为字符级预测的补充，无需独立语言模型。实验表明，MGP-STR在标准基准测试集上达到了93.35%的平均识别准确率，超越了现有方法。代码已开源，供进一步研究使用。

2025-05-10 14:55:21 645

原创 LayoutLMv3：面向文档智能的统一文本与图像遮蔽预训练

本文介绍了LayoutLMv3，一种用于文档智能的多模态Transformer预训练方法。LayoutLMv3采用统一的文本与图像遮蔽策略，结合了masked language modeling（MLM）和masked image modeling（MIM）目标，并引入了word-patch alignment（WPA）目标来学习跨模态对齐能力。该模型不依赖CNN进行图像特征提取，显著减少了参数并简化了预处理步骤。实验表明，LayoutLMv3在表单理解、票据理解、文档视觉问答、文档图像分类和文档布局分析等

2025-05-09 09:04:21 828

表格识别任务：基于opencv、机器学习对存在表格线任务进行识别

大模型微调：Lora生成任务大模型模型微调示例demo

大模型微调：Lora进行自然语言理解任务示例demo

统计学习方法.李航 (1).pdf

深度学习与交通大数据实战V2.0版

空空如也