文章目录
- P1 06-26 大型多模态模型:CVPR 2023教程笔记
- P:2 06-26 在强化学习中学习调节预训练模型
- P:3 06-26 通过算术操作组合参数高效模块
- P:4 06-26 KOSMOS-2: 将多模态大型语言模型与世界联系起来
- P:5 06-26 MotionGPT:将人类动作视为外语
- P:6 06-26 从文本中丰富本体知识库:用于概念发现和放置的生物医学数据集
- P:7 06-26 SUGARCREPE:修复视觉语言组合性的易受攻击基准
- P:8 06-26 探索大型语言模型在解决编程问题时的鲁棒性
- P:9 06-26 通过稳健的指令调整对齐大型多模态模型
- P:10 06-26 面向形式感知机器翻译的数据驱动方法:语言特定处理和合成数据生成
- P:11 06-26 ChatIDS: 使用生成式人工智能的可解释性网络安全
- P:12 06-26 Fauno: 意大利大型语言模型,让你无言以对!
- P:13 06-25 解密代码:通过判别特征分析和数据集优化区分ChatGPT生成的代码和人工编写的代码
- P:14 06-25 神经符号逆向规划引擎(NIPE):从语言输入建模概率社交推理
- P:15 06-25 ROBUT: 人工注释的对抗性扰动下表格问答鲁棒性的系统研究
- P:16 06-25 针对低资源语言的弱监督场景文本生成
- P:17 06-25 利用大型语言模型改革网络威胁检测
- P:18 06-25 通过数据库模式修剪改进自注意力的多语言SQL翻译器
- P:19 06-25 利用图神经网络和GPT模型辅助学习结构-性能关系:稀土掺杂磷光体应用
- P:20 06-25 揭示情感的潜力:大型语言模型能否预测中国股票价格走势?
P1 06-26 大型多模态模型:CVPR 2023教程笔记
-
- Title: Large Multimodal Models: Notes on CVPR 2023 Tutorial
-
论文简介: 大型多模态模型:CVPR 2023教程笔记
-
- Authors: Chunyuan Li
-
- Affiliation:
Microsoft Research, Redmond (微软研究院,雷德蒙德)
- Affiliation:
-
- Keywords:
Large Multimodal Models, Vision-and-Language Modeling, Instruction Tuning, GPT-4, Multimodal GPT-4
- Keywords:
-
- Paper: None Github: None
-
- 论文总结:
-
(1): 本文研究背景是近期用于视觉与语言建模的大型GPT模型,为了构建和超越多模态GPT-4,引出了对大型多模态模型(LMMs)进行指导调整的研究。
-
(2): 过去的方法主要是基于图像到文本的生成模型,但存在一些问题,因此需要对大型多模态模型进行改进。本文提出了指导调整的方法,并在多模态空间进行扩展,以解决这些问题。
-
(3): 本文介绍了如何使用开源资源构建多模态GPT-4的最小原型,并回顾了最近出现的相关主题。创新点在于将指导调整方法应用于多模态模型,并提供了使用开源资源构建模型的指导。
-
(4): 本文的方法在视觉与语言生成任务上取得了良好的性能,支持了他们的目标和创新。通过构建多模态GPT-4的最小原型,展示了LMM的潜力和应用前景。
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文介绍了大型多模态模型的方法,主要包括模型架构和训练目标的描述,并以几个案例研究展示了不同类型的大型多模态模型的应用。
b. 方法的详细步骤:
(1). 大型多模态模型的基本架构:该模型通常由图像编码器和语言模型组成,其中图像编码器用于提取视觉特征,语言模型用于解码文本序列。图像和语言模态可以通过可训练的连接模块进行连接。图像编码器和语言模型可以从头开始训练,也可以从预训练模型初始化。
(2). 训练目标:模型通常使用自回归损失函数对输出的文本标记进行训练。在注意力机制中,图像标记可以相互关注,文本标记依赖于所有图像标记和前面的文本标记。
(3). 大型多模态模型的应用案例:
- 案例一:使用图像-文本配对实例进行训练的大型多模态模型。该模型通过大量的图像-文本配对进行训练,其中每个训练样本都是一对图像和文本。通过两个案例研究GIT和BLIP2,展示了不同模型的性能比较。
- 案例二:使用交错的图像-文本序列实例进行训练的大型多模态模型。该模型通过在预训练的图像和语言模型之间添加新的架构组件来连接它们。通过案例研究Flamingo,展示了该模型在使用来自网络的大规模多模态数据进行训练后,可以通过简单的少样本学习直接适应视觉任务。
(4). 多模态上下文学习:Flamingo模型展示了多模态上下文学习的特性。通过给定一对图像-文本示例,Flamingo可以在新的未见问题上进行零样本任务转移。这意味着Flamingo可以通过仅有少量任务特定示例来解决许多困难的问题,无需额外的训练。
(5). GPT-4模型:GPT-4是一种新一代的大型多模态模型,不仅提高了语言能力,还允许视觉信号作为额外的输入。从GPT-3到GPT-4,我们看到了两个新的特性:指令跟随和多模态输入。本文的重点是在多模态空间中进行指令跟随和对齐研究。
(6). 先决条件:本文回顾了指令调整与大型语言模型的相关研究,以便更好地理解多模态模型中的指令跟随和对齐研究的背景和历史。
(7). 其他相关模型:本文还回顾了OpenAI的一些大型模型,包括GPT-2、GPT-3、ChatGPT和InstructGPT,并介绍了它们的特点和性能。
(8). 总结:本文提出了大型多模态模型的方法,并通过案例研究展示了不同类型的模型在图像到文本生成任务和多模态上下文学习方面的应用。同时,本文还介绍了GPT-4模型的新特性和多模态空间中的指令跟随和对齐研究的重要性。
实验设置:
- 实验设置(Experimental setting):
本文的实验设置主要包括以下几个方面:
(1). 背景介绍:首先介绍了最近用于视觉和语言建模的类似GPT的大型模型,以激发对指令调整大型多模态模型(LMMs)研究的兴趣。
(2). 指令调整基础:描述了大型语言模型中指令调整的基本原理,并将其扩展到多模态空间。
(3). 构建多模态GPT-4的最小原型:介绍了如何使用开源资源构建类似多模态GPT-4的模型的最小原型,并回顾了最近出现的相关主题。
(4). 图像聊天实验:通过使用LLaVA生成的图像聊天示例,展示了多模态模型的应用。
总结以上实验设置,本文主要介绍了大型多模态模型的背景和基础知识,并展示了如何构建多模态GPT-4的最小原型,并通过图像聊天实验进行了验证。
实验结果:
实验结果和分析:
本文介绍了关于大型多模态模型的CVPR 2023教程的内容总结。教程分为三个部分。首先介绍了最近用于视觉和语言建模的类似GPT的大型模型的背景,以激发对指令调整的大型多模态模型(LMMs)的研究兴趣。作为先决条件,我们描述了大型语言模型中指令调整的基础知识,并将其进一步扩展到多模态空间。最后,我们说明了如何使用开源资源构建类似于多模态GPT-4的最小原型,并回顾了最近出现的主题。
实验结果和分析:
- 本文介绍了大型多模态模型的CVPR 2023教程的内容总结。
- 教程分为三个部分,分别介绍了最近用于视觉和语言建模的大型模型的背景、大型语言模型中指令调整的基础知识以及如何构建多模态GPT-4的最小原型。
- 通过使用开源资源,可以构建类似于多模态GPT-4的模型。
- 文章还回顾了最近出现的与多模态模型相关的主题。
- 实验结果和分析的具体内容未在输入内容中提及。
P:2 06-26 在强化学习中学习调节预训练模型
-
Title: Learning to Modulate pre-trained Models in RL
-
论文简介: 本文研究了在强化学习中如何学习调节预训练模型,以便能够高效地适应新任务。通过引入可学习的调节池,通过调节预训练模型的信息流,提出了一种名为Learning-to-Modulate (L2M)的方法。该方法在Continual-World基准测试上取得了最先进的性能,并保持了对预训练任务的性能。
-
Authors: Thomas Schmied, Markus Hofmarcher, Fabian Paischer, Razvan Pascanu, Sepp Hochreiter
-
Affiliation:
Thomas Schmied: ELLIS Unit Linz and LIT AI Lab, Institute for Machine Learning, Johannes Kepler University, Linz, Austria -
Keywords: Reinforcement Learning, pre-training, fine-tuning, catastrophic forgetting, Learning-to-Modulate (L2M)
-
Paper: Link to the paper
Github: None -
论文总结:
-
(1): 本文研究背景是强化学习中的预训练模型在适应新任务时存在的问题,即灾难性遗忘现象。
-
(2): 过去的方法包括参数高效的微调和基于提示的调优,但它们在强化学习中的应用效果尚不清楚。本文提出了一种新的方法L2M,通过学习调节池来避免灾难性遗忘,并在新任务上取得了良好的性能。
-
(3): 本文的研究方法是通过引入可学习的调节池,通过调节预训练模型的信息流来适应新任务。这种方法在Continual-World基准测试上取得了最先进的性能,并保持了对预训练任务的性能。
-
(4): 本文的方法在Continual-World基准测试上取得了最先进的性能,同时保持了对预训练任务的性能。这表明该方法能够高效地学习新任务,并避免灾难性遗忘现象。本文的创新点在于引入了可学习的调节池来调节预训练模型的信息流。
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文提出了一种名为Learning-to-Modulate (L2M)的方法,通过可学习的调制池来调节预训练模型的信息流,以避免学习技能的退化,并在新任务上实现了最先进的性能。
b. 方法的详细步骤:
(1). 提出了Learning-to-Modulate (L2M)方法,该方法结合了参数高效微调和基于提示的调优方法的优点。
(2). 使用参数高效微调方法(如LoRA)作为预训练模型的调制器,通过学习调制器的权重来改变预训练模型的行为。
(3). 维护一个调制池,其中包含一组可学习的关键字,用于检索与给定输入序列最匹配的调制器权重。
(4). 使用聚合函数对轨迹中的状态进行聚合,生成查询向量,并通过计算余弦相似度选择与查询向量最相似的关键字。
(5). 使用选择的关键字对预训练模型进行调制,包括在注意力机制和前馈块中对查询和值进行调制。
(6). 通过梯度下降学习调制器的权重,同时保持预训练模型冻结。
(7). 通过最大化查询向量和关键字之间的余弦相似度来更新关键字。
(8). 扩展了Decision Transformer架构,以处理来自多个领域的输入。
(9). 构建了统一的状态空间,将Meta-World和DMControl环境的维度合并为一个204维的状态空间。
(10). 对动作进行分词,并使用最小-最大标记化方法将其离散化为64个标记。
(11). 使用交叉熵损失函数通过返回条件的反向强化学习训练模型。
以上是本文提出的Learning-to-Modulate (L2M)方法的详细步骤。该方法通过调节预训练模型的信息流,避免了学习技能的退化,并在新任务上实现了最先进的性能。
实验设置:
- 实验设置(Experimental setting):
本文的实验设置如下:
(1). 本文考虑了两个不同的基准套件,共包含66个不同的任务,分别是Meta-World和DMControl。
(2). Meta-World包含50个多样化的机器人操作任务,如抓取、操纵物体、打开/关闭窗户、按按钮、锁定/解锁门和投篮等。DMControl包含16个任务,涉及不同的机器人形态。
(3). 作者使用Soft Actor Critic (SAC)算法训练了每个任务的特定代理,并收集了相应的数据集。
(4). Meta-World数据集包含了100M个状态转换,DMControl数据集包含了16M个状态转换。
(5). 作者比较了多种微调方法的性能,包括Full fine-tuning (FT)、Adapters、LoRA、Prompt-tuning、Prefix-tuning、P-tuning v2等。
(6). 为了评估遗忘现象,作者将预训练模型逐个任务地进行微调,并在每个任务上训练100K步。
(7). 作者还比较了L2M方法与Elastic Weight Consolidation (EWC)和L2方法的性能。
(8). 实验结果表明,L2M方法在Continual-World v2基准上取得了最高的性能,保持了对预训练任务的良好表现,并有效地适应了新任务。
实验结果:
实验结果和分析:
本研究首先在Meta-World和DMControl两个基准套件的数据集上进行了联合预训练,并评估了多种在自然语言处理中常见的微调方法在新任务上的性能以及对预训练任务性能的保留情况。实验结果表明,大多数微调方法在预训练任务上的性能明显下降。因此,研究提出了一种新的方法,即Learning-to-Modulate (L2M),通过可学习的调制池来调节冻结的预训练模型的信息流,从而避免了学习技能的退化。该方法在Continual-World基准测试中取得了最先进的性能,并保持了对预训练任务的性能。此外,研究还发布了一个包含50个Meta-World任务和16个DMControl任务的数据集,以促进未来的研究。
具体实验结果如下:
- 在CW10和DMC6上,FT方法取得了最高的性能,因为它可以利用整个模型的容量。Adapters方法在平均得分上排名第二,其次是LoRA、(IA)3和FT-last+head。PBT和PEFT方法之间存在较大的性能差距,特别是在MT40上。在DMC6上,全面微调和PEFT方法之间的性能差距更大。这表明在适应新任务时需要更多的模型容量。
- 在CW10和DMC6上,L2M方法的性能优于其他方法,平均成功率分别为65%和43%。将任务oracle添加到L2M方法中可以将成功率提高到76%和75%,接近LoRA的单任务性能。与之相比,L2P结合不同的提示方法的性能要差得多。传统的连续强化学习方法EWC在减轻遗忘方面效果不佳。
- 在微调后评估了对预训练任务的性能,结果显示FT、L2和EWC的性能严重下降,而L2M和L2P方法在微调前后保持了类似的性能水平。因此,L2M在适应新任务的同时有效地保留了对预训练任务的性能。
总结起来,本研究通过实验结果验证了Learning-to-Modulate (L2M)方法在连续强化学习中的有效性,该方法在新任务上取得了最先进的性能,并保持了对预训练任务的性能。这对于解决连续学习中的遗忘问题具有重要意义。
P:3 06-26 通过算术操作组合参数高效模块
-
Title: Composing Parameter-Efficient Modules with Arithmetic Operations
-
论文简介: 本文提出了一种通过线性算术操作在权重空间中组合参数高效模块的方法,从而整合不同模块的能力。通过定义加法和否定运算符,并进一步组合这两个基本运算符,我们可以在模块参数上执行灵活的算术操作。我们将不同的算术操作应用于组合参数高效模块,用于分布泛化、多任务学习、遗忘和领域迁移等任务。实验结果表明,我们的方法在各种设置下产生了新的有效的参数高效模块,显著优于现有方法。
-
Authors: Jinghan Zhang, Shiqi Chen, Junteng Liu, Junxian He
-
Affiliation: 上海交通大学
-
Keywords: parameter-efficient fine-tuning, pretrained language models, module composition, arithmetic operations
-
Paper: Link Github: None
-
论文总结:
-
(1): 本文研究了通过算术操作组合训练好的参数高效模块,以实现对模块能力的高度灵活操作。
-
(2): 以往的方法主要通过学习融合模块输出或混合专家模式来组合参数高效模块,需要额外的训练。本文的方法通过定义加法和否定运算符,并进行线性算术操作,实现了无需额外训练的模块组合。这种方法在多任务应用以外的更广泛设置下进行了研究,并扩展到了现代大型语言模型。
-
(3): 本文提出了基于线性算术操作的参数高效模块组合方法,通过定义加法和否定运算符,并将它们组合应用于模块参数,实现了模块能力的灵活组合。这种方法不需要额外的训练,具有较高的灵活性和可操作性。
-
(4): 本文在分布泛化、多任务学习、遗忘和领域迁移等任务上应用了所提出的方法,并在各种设置下取得了显著的性能提升。这些实验结果表明,通过算术操作组合参数高效模块可以产生新的有效模块,支持其目标的性能提升,并具有创新和贡献。
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文提出了一种通过线性算术操作在权重空间中组合参数高效模块的方法,以整合不同模块的能力。
b. 方法的详细步骤:
(1). 首先,定义了模块的加法和取反运算作为基本运算符,并进一步组合这两个基本运算符以进行灵活的算术操作。
(2). 提出了参数高效模块(PEM)的加法运算符,通过对应位置的参数进行逐元素相加,得到一个新的模块,该模块捕捉了输入模块的集体特征。
(3). 引入了PEM的取反运算符,用于实现遗忘或去除某些技能。通过预定义的加法运算符,取反运算符可以自然地实现减法操作。
(4). 在不同的场景中,利用加法运算符和取反运算符进行模块的组合,包括分布泛化、多任务学习、遗忘、领域迁移和去毒化等。
(5). 将该方法扩展到最新的基于LLaMA的指令调整大型语言模型Alpaca-LoRA上,实现去毒化操作。
(6). 实验证明,通过该方法组合得到的新的参数高效模块在各种设置下都显著优于现有方法。
实验设置:
- 实验设置(Experimental setting):
本文的实验设置主要包括五个不同的场景,涉及不同的算术操作。在每个场景中,我们固定预训练模型检查点和PEM(parameter-efficient module)的架构,以确保算术操作的必要条件。我们在每个场景中使用LoRA和(IA)3进行实验,除非另有说明。我们还在全微调(FFT)设置中进行算术操作,以作为参考点。需要强调的是,全微调的结果与我们的方法不直接可比,因为本文的目标是组合参数高效的模块。我们保持组合PEM的初始化相同,以获得更好的线性连接性,但我们在第4.7节中对不同初始化的影响进行了分析。LoRA中的A矩阵可能有不同的初始化方式,而(IA)3中的l向量都是根据设计初始化为1。λ是我们方法中唯一可调的超参数。以下是每个场景的简要设置,完整的实验设置细节请参考附录A。
(1) 分布泛化(Distribution generalization)场景设置:
在这个设置中,我们旨在将在相同任务但不同分布上训练的PEMs组合起来,以提高模型的泛化能力。为此,我们按照Jin等人(2023)的方法构建了一个合成的设置:我们从数据集中选择两个训练子集,每个子集具有不平衡的标签和不同的分布。然后,我们分别在这两个子集上训练两个独立的PEM,并通过θ merge = λθ (1) + (1 − λ)θ (2)将它们合并。然后,我们使用原始的验证数据评估单独和组合的PEMs,以确定合并的PEM是否表现出改进的泛化能力。我们使用GLUE任务集合中的MNLI、RTE、CoLA、SST2、MRPC、QNLI、QQP和STS-B数据集进行实验。我们采用RoBERTa-base作为基础模型。除了CoLA数据集使用Matthews相关系数(MCC)评估外,其他数据集均使用准确率评估,而STS-B数据集使用Spearman等级相关系数评估。
(2) 多任务(Multi-tasking)场景设置:
在这个设置中,我们旨在将在不同任务上训练的PEMs组合起来,以提高模型在多任务上的性能。我们使用GLUE任务集合中的所有数据集进行实验,并使用相应的评估指标进行评估。
(3) 取消学习(Unlearning)场景设置:
在这个设置中,我们旨在通过组合PEMs来实现取消学习的效果。具体而言,我们首先在一个任务上训练一个PEM,然后在另一个任务上训练一个PEM,并通过θ merge = λθ (1) + (1 − λ)θ (2)将它们合并。我们使用GLUE任务集合中的MNLI和QQP数据集进行实验,并使用相应的评估指标进行评估。
(4) 领域转移(Domain transfer)场景设置:
在这个设置中,我们旨在通过组合PEMs来实现领域转移的效果。具体而言,我们首先在一个领域上训练一个PEM,然后在另一个领域上训练一个PEM,并通过θ merge = λθ (1) + (1 − λ)θ (2)将它们合并。我们使用GLUE任务集合中的MNLI和QQP数据集进行实验,并使用相应的评估指标进行评估。
(5) Alpaca-LoRA去毒化场景设置:
在这个设置中,我们将我们的方法扩展到最新的基于LLaMA的指令调整大型语言模型Alpaca-LoRA。我们使用GLUE任务集合中的MNLI和QQP数据集进行实验,并使用相应的评估指标进行评估。
实验结果:
实验结果和分析:
本文通过线性算术操作在权重空间中组合参数高效模块,从而整合不同模块的能力。作者在五个不同的场景中进行了实验,包括分布泛化、多任务、遗忘和领域转移。实验结果表明,通过我们的方法组合的参数高效模块在所有设置中明显优于现有模块。具体实验结果如下:
-
分布泛化:在这个设置中,作者通过合并在相同任务但不同分布上训练的参数高效模块,以提高模型的泛化能力。实验结果表明,合并后的模块在各项指标上都明显优于两个单独的模块。
-
多任务:在这个设置中,作者将参数高效模块应用于多个任务。实验结果显示,通过组合不同任务的模块,可以显著提高模型在各个任务上的性能。
-
遗忘:在这个设置中,作者研究了如何通过组合参数高效模块来实现遗忘特定任务的能力。实验结果表明,通过组合模块并调整权重,可以有效地遗忘特定任务。
-
领域转移:在这个设置中,作者研究了如何通过组合参数高效模块来实现领域转移的能力。实验结果表明,通过组合模块并调整权重,可以显著提高模型在不同领域上的性能。
-
Alpaca-LoRA模型:作者将方法扩展到了基于LLaMA的最新指令调整大型语言模型Alpaca-LoRA上。实验结果表明,通过我们的方法组合的模块在各项指标上都明显优于现有模块。
总结来说,本文提出的方法通过线性算术操作在权重空间中组合参数高效模块,实现了模块的灵活组合。实验结果表明,通过我们的方法组合的模块在各个场景中都取得了显著的性能提升,证明了方法的有效性和可行性。
P:4 06-26 KOSMOS-2: 将多模态大型语言模型与世界联系起来
-
Title: KOSMOS-2: Grounding Multimodal Large Language Models to the World
-
论文简介: KOSMOS-2是一个多模态大型语言模型,具备感知物体描述和将文本与视觉世界联系起来的新能力。
-
Authors: Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei
-
Affiliation: Microsoft Research
-
Keywords: Multimodal Large Language Model, grounding, referring, vision-language tasks
-
Paper: Link Github: None
-
论文总结:
-
(1): 本文的研究背景是多模态大型语言模型的发展,以及在语言、视觉和视觉-语言任务中的应用。
-
(2): 过去的方法存在问题,如对于图像描述需要输入详细的文本描述,存在指代歧义等。本文的方法有很好的动机和解决这些问题的能力。
-
(3): 本文提出了一种基于KOSMOS-1的多模态大型语言模型KOSMOS-2,通过构建大规模的图像-文本对数据集进行训练,并将感知和联系能力整合到下游应用中。
-
(4): KOSMOS-2在多个任务上进行了评估,包括多模态感知、指代理解、感知-语言任务以及语言理解和生成。实验结果表明,KOSMOS-2在这些任务上取得了竞争性的性能,并且在感知和指代任务以及图像描述和图像问答等方面具有显著的性能和创新贡献。
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文介绍了KOSMOS-2,一种多模态大型语言模型,通过将文本与视觉世界进行关联,实现了感知物体描述和文本 grounding 的能力。
b. 方法的详细步骤:
(1). KOSMOS-2是一种基于 grounding 和 referring 能力的多模态大型语言模型,相比于KOSMOS-1,它集成了这些能力。
(2). 模型可以接受用户使用边界框选择的图像区域作为输入,并提供视觉答案(即边界框),并将文本输出与视觉世界进行关联。
(3). KOSMOS-2采用与KOSMOS-1相同的模型架构和训练目标。通过将基于 grounding 的图像-文本对添加到训练数据中,赋予模型 grounding 和 referring 的能力。
(4). 对于一个文本片段(如名词短语和指代表达式)及其在一个基于 grounding 的图像-文本对中对应的边界框,我们将边界框的连续坐标离散化为一系列位置标记,以统一的方式与文本标记进行编码。
(5). 然后,我们通过一个“超链接”数据格式将位置标记及其对应的文本片段进行链接。模型被训练以建立图像区域与其对应位置标记之间的映射,并将图像区域与其关联的文本片段连接起来。
(6). 对于一个基于 grounding 的图像-文本对中的文本片段及其关联的边界框,我们首先将边界框的连续坐标转换为一系列离散的位置标记。
(7). 对于一个宽度为W,高度为H的图像,我们将宽度和高度均匀地分成P个段。得到P×P个区块,每个区块包含(W/P)×(H/P)个像素。对于每个区块,我们使用一个位置标记来表示该区块内的坐标。我们使用每个区块的中心像素的坐标来确定图像上的边界框。总共引入了P×P个位置标记,并将这些标记添加到词汇表中,以实现与文本的统一建模。
(8). 边界框可以使用其左上角点(x1, y1)和右下角点(x2, y2)来表示。我们将左上角和右下角的位置标记进行离散化,然后将左上角位置标记、右下角位置标记和特殊边界标记和连接起来,表示一个单独的边界框:“”。
(9). 如果文本片段与多个边界框关联,我们使用特殊标记来连接这些边界框的位置标记:“…”。
(10). 然后,我们以类似于 Markdown 中的“超链接”的格式排列文本片段及其关联的位置标记。对于只有一个边界框的文本片段,结果序列为:“
文本片段
”,其中和
是特殊标记,表示文本片段的开始和结束。这种数据格式告诉模型图像区域在边界框内与文本片段相关联。(11). 对于图像-文本对中的示例(如图1所示),输入表示为:
It
seats next toa campfire
,其中(12). 对于仅包含语言数据、跨模态配对数据(即图像-文本对)和交错多模态数据,我们使用与KOSMOS-1相同的输入表示。在KOSMOS-1的基础上,KOSMOS-2通过整合 grounding 和 referring 的能力增强了多模态大型语言模型。KOSMOS-2还使用基于 Transformer 的因果语言模型作为骨干,并通过下一个标记预测任务进行训练。
(13). 除了KOSMOS-1中使用的多模态语料库(包括文本语料库、图像标题对和交错的图像-文本数据)之外,我们还将基于 grounding 的图像-文本对添加到训练中。训练损失只考虑离散标记,如文本标记和位置标记。模型可以通过位置标记和整个图像学习定位和理解图像区域,将文本片段与图像区域关联,并使用位置标记输出图像区域的边界框。KOSMOS-2展示了 grounding 和 referring 的新能力。指代能力使我们能够指出带有边界框的图像区域。KOSMOS-2可以通过边界框的坐标理解用户所指的图像区域。指代能力提供了一种新的交互方式。与之前的多模态大型语言模型(如ADL + 22、HSD + 22、HDW + 23)不同,它们只能提供文本输出,KOSMOS-2可以提供视觉答案(即边界框)并将文本输出与图像进行关联。grounding 能力使模型能够提供更准确、更丰富和更全面的响应。除了在KOSMOS-1中评估的视觉、语言和视觉-语言任务之外,该模型还可以用于更多的下游任务,如基于 grounding 的图像字幕生成、基于 grounding 的视觉问答、指代表达式理解和生成等。
实验设置:
- 实验设置(Experimental setting):
本文介绍了KOSMOS-2,一种多模态大型语言模型(MLLM),可以感知物体描述(例如边界框)并将文本与视觉世界进行关联。为了训练模型,我们使用多模态语料库构建了大规模的图像-文本对数据集(称为GRIT)。除了现有的MLLM功能(例如感知一般模态、遵循指令和进行上下文学习),KOSMOS-2还将关联能力整合到下游应用中。我们在广泛的任务上评估了KOSMOS-2,包括多模态关联、指代表达理解、指代表达生成、感知-语言任务以及语言理解和生成。实验中,我们使用Flickr30k Entities数据集进行短语关联任务的评估,并使用Re-fCOCO、RefCOCO+和RefCOCOg数据集进行指代表达理解任务的评估。我们使用R@1、R@5和R@10等指标来评估模型的性能。
实验结果:
实验结果和分析:
KOSMOS-2模型在广泛使用的短语定位和指代表达理解任务上进行了测试。短语定位任务要求模型根据一个或多个给定的短语预测一组边界框。指代表达理解任务鼓励模型在给定图像中定位文本指代表达式所描述的对象。
通过在这两个任务上测试KOSMOS-2模型,我们可以评估模型在将文本描述与视觉世界进行关联方面的表现,这对于开发能够处理复杂多模态任务的先进AI系统至关重要。
对于短语定位和指代表达理解任务,KOSMOS-2模型需要生成位置标记,然后将其转换为边界框进行评估。输入格式为"图像嵌入…“,其中”“用于提示模型生成位置标记。我们在Flickr30k Entities数据集的验证集和测试集上评估短语定位任务。为了减少歧义,我们不使用单独的短语作为提示,而是使用当前短语以及前面的单词作为输入,前面的单词作为上下文:”…
{短语}
A man
“。对于短语"orange safety vest”,提示为"A man in a blue hard hat andorange safety vest
"。当图像中有多个男人时,上下文"A man in a blue hard hat and"明确帮助模型定位对象,以减少歧义。我们从模型的响应中获取位置标记"…“,然后将其转换为边界框。如果KOSMOS-2生成的位置序列无法正确转换(例如”<loc 1 >"),我们将其视为负样本。我们使用MDETR中的ANY-BOX协议。我们报告R@1、R@5和R@10指标,其中R@1/5/10表示使用前1/5/10个生成的边界框计算召回率。如果KOSMOS-2生成的边界框少于5个或10个,我们使用所有可用的边界框进行计算。
短语定位结果表格2:Flickr30k Entities上的短语定位结果。我们报告R@1、R@5和R@10指标,其中R@1/5/10表示使用前1/5/10个生成的边界框计算召回率。我们报告所有方法的准确率。
与VisualBert [LYY + 19]模型相比,KOSMOS-2模型在验证集和测试集上的R@1指标提高了7.4%。与其他模型不同,KOSMOS-2模型不涉及先前的设计(例如对象查询或提议),导致R@1、R@5和R@10之间的结果相似。这些结果表明,KOSMOS-2模型能够在不需要后处理冗余位置的情况下生成高质量的位置,这突显了我们模型在处理短语定位任务方面的有效性。
我们使用三个广为人知的数据集Re-fCOCO [YPY + 16]、RefCOCO+ [YPY + 16]和RefCOCOg [MHT + 15]来评估指代表达理解任务。RefCOCO和RefCOCO+是通过一个双人游戏生成的,而RefCOCO+专门设计用于排除空间关系,如"on the left"。RefCOCOg包含空间关系,并且平均包含更长的表达式。与Flickr30k entities上的短语定位不同,我们使用指代表达式作为输入来衡量这个任务:"
指代表达式
“。例如,在图4(2)中所示的示例中,输入序列为”A man in a blue hard hat and orange safety vest
"。同样,只有与地面实况边界框的IOU大于0.5的预测边界框才被认为是正确的。解码失败的序列也被视为负样本。我们使用查询表达式的第一个生成边界框来衡量准确性。实验结果和分析:
(1) KOSMOS-2模型在Flickr30k Entities数据集上的短语定位任务中表现出色,R@1指标提高了7.4%。
(2) KOSMOS-2模型在指代表达理解任务中也取得了良好的结果,具有较高的准确性。
P:5 06-26 MotionGPT:将人类动作视为外语
-
Title: MotionGPT: Human Motion as a Foreign Language
-
Authors: Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen
-
Affiliation: Fudan University
-
Keywords: motion-language model, pre-trained language models, motion generation, motion captioning, motion prediction, motion in-between
-
Paper: Link to the paper
Github: Link to the code -
Summary:
- (1): The research background of this article is the lack of a unified model for language and motion data, which poses challenges in motion-related tasks.
- (2): Previous methods treated motion and language as separate modalities, requiring strictly paired data and lacking a comprehensive understanding of their relationship. The approach in this paper is well motivated as it treats human motion as a specific language and leverages pre-trained language models to enhance motion-related tasks.
- (3): The research methodology proposed in this paper is MotionGPT, a motion-language model that treats human motion as a foreign language. It employs a motion tokenizer and a pre-trained language model to handle multiple motion tasks. The innovation lies in the integration of language and motion data, as well as the two-stage training scheme.
- (4): The methods in this paper achieve state-of-the-art performance on various motion tasks, including text-driven motion generation, motion captioning, motion prediction, and motion in-between. The performance supports their goals of building a unified motion-language model and demonstrates the innovation and contribution of MotionGPT.
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文提出了MotionGPT,一种统一、多功能且易于使用的运动-语言模型,通过将语言数据与大规模运动模型相结合,实现了增强运动相关任务性能的运动语言预训练。
b. 方法的详细步骤:
(1). 运动-语言预训练:使用离散向量量化将人体运动转化为运动标记,类似于单词标记的生成过程。通过构建"运动词汇",在运动和文本上进行统一的语言建模,将人体运动视为一种特定的语言。同时,借鉴提示学习的思想,使用运动-语言数据的混合进行预训练,并在基于提示的问答任务上进行微调。
(2). 运动生成任务:包括基于文本的运动生成和运动补全任务。基于文本的运动生成任务是通过用户友好且便捷的语言输入生成多样且逼真的人体运动。运动补全任务是在部分运动的条件下生成运动,例如经典的运动预测或中间运动生成。与现有方法相比,本文提出的方法能够处理多个任务,并将人体运动视为一种外语进行处理。
(3). 运动描述任务:通过学习将运动映射到语言,实现使用自然语言描述人体运动。先前的研究使用统计模型或循环网络来实现运动到语言的映射。本文提出的方法将运动压缩为短序列的离散变量,并使用神经翻译网络建立两种模态之间的映射。与先前的研究相比,本文的方法能够在运动生成的训练过程中加入描述模块,但仍受限于文本和运动之间的双向翻译。
(4). 语言模型和多模态:大规模语言模型(LLMs)通过广泛的数据集和模型规模实现了令人印象深刻的理解和生成能力,将自然语言处理推向了新的高度。本文提出的方法将自然语言模型与人体运动任务相结合,提供了一种统一的解决方案。
(5). 运动语言预训练:现有的文本到运动生成方法通常是基于字幕到运动的方式,即模型接收纯文本描述来生成运动。然而,这些方法通常无法支持用户提供特定上下文的指令。本文提出的方法能够有效地将自然语言模型与人体运动任务结合起来,为运动合成问题提供了统一的解决方案。
实验设置:
- 实验设置(Experimental setting):
本文提出了MotionGPT,一个统一、多功能且易于使用的运动-语言模型,用于处理多个与运动相关的任务。为了构建MotionGPT,作者首先将人类运动转化为运动令牌,类似于生成词令牌的过程。然后,他们在运动和文本上进行语言建模,将人类运动视为一种特定的语言。为了预训练MotionGPT,作者采用了运动-语言数据的混合,并在基于提示的问答任务上进行了微调。实验中使用了HumanML3D和KIT数据集进行评估,其中HumanML3D数据集包含来自AMASS的14,616个运动序列和44,970个文本描述,KIT数据集包含6,353个文本描述和3,911个运动序列。评估指标包括运动质量、生成多样性、文本匹配和语言质量。实验结果表明,MotionGPT在多个运动任务上取得了最先进的性能。
(1). 数据集设置:
- 文本到运动任务使用HumanML3D和KIT数据集进行评估,其中KIT数据集包含6,353个文本描述和3,911个运动序列,HumanML3D数据集包含14,616个运动序列和44,970个文本描述。
- 运动预测和运动补全任务使用HumanML3D数据集进行评估,该数据集是AMASS数据集的子集,采用了一致的运动表示方法。
- 评估中使用的运动表示方法结合了关节速度、位置和旋转。
(2). 评估指标:
- 运动质量评估使用Frechet Inception Distance (FID)指标,评估生成运动和真实运动之间的特征分布距离。
- 生成多样性评估使用Diversity (DIV)和MultiModality (MM)指标,分别评估生成运动的方差和同一文本描述下生成运动的多样性。
- 文本匹配评估使用R Precision和Multi-modal Distance (MM Dist)指标,分别评估文本和运动之间的匹配准确性和距离。
- 语言质量评估使用BLUE、Rouge、Cider和BertScore等自然语言研究中的语言评估指标。
(3). 模型设置:
- MotionGPT使用T5作为运动感知语言模型的基础架构。
- 模型大小和训练策略对MotionGPT的性能有影响,作者在不同模型大小上进行了评估,包括60M、220M和770M的MotionGPT。
- 作者还评估了指导调优策略对不同模型大小的影响,结果表明指导调优提高了MotionGPT的多功能性和性能。
(4). 任务比较:
- 作者将MotionGPT与其他方法进行了比较,包括文本到运动、运动到文本、运动预测和运动补全任务。实验结果表明,MotionGPT在所有评估任务上都取得了竞争性的性能。
(5). 模型大小和训练策略的影响:
- 作者评估了不同模型大小对MotionGPT性能的影响,结果显示220M基础模型在大多数任务上取得了显著的性能,而更大的模型大小并没有带来明显的改进。
以上是本文的实验设置部分。
实验结果:
实验结果和分析:
本文通过对MotionGPT模型在多个运动相关任务和数据集上的性能进行广泛比较,评估了其性能。实验设置包括数据集设置、评估指标和实现细节。首先,通过与其他方法在各种任务上的比较,建立了一个统一的基准(uniform benchmark)(Sec. 4.2)。然后,对文本到运动、运动到文本、运动预测和运动中间过渡等具体任务进行了评估(Sec. 4.2)。实验结果表明,MotionGPT在多个运动任务上取得了最先进的性能,包括文本驱动的运动生成、运动字幕生成、运动预测和运动中间过渡。
具体实验结果如下:
- 在文本到运动任务上,MotionGPT在HumanML3D和KIT数据集上表现出色,与其他最先进方法相比,取得了竞争性的性能。
- 在运动到文本任务上,MotionGPT在HumanML3D数据集上的表现优于最近的工作TM2T,使用真实的文本描述进行评估,结果更准确。
- 在运动预测和运动中间过渡任务上,MotionGPT在AMASS数据集上展示了最佳的运动完成质量和多样性。
此外,实验还评估了不同模型大小和指导调优策略对MotionGPT性能的影响。结果显示,220M基础模型相比较小的60M模型取得了显著的性能提升。然而,当前运动数据集规模较小,大型模型的性能提升有限甚至可能导致性能下降。指导调优策略提高了MotionGPT的多样性和运动任务的性能,但对于纯文本生成任务,模型性能有所下降。
综上所述,MotionGPT在多个运动相关任务上展现出了竞争性的性能,并且模型大小和指导调优策略对其性能有一定影响。
P:6 06-26 从文本中丰富本体知识库:用于概念发现和放置的生物医学数据集
-
Title: Ontology Enrichment from Texts: A Biomedical Dataset for Concept Discovery and Placement
-
论文简介: 本文提出了一个用于概念发现和放置的生物医学数据集,旨在从文本中丰富本体知识库。现有的数据集存在一些问题,如假设新概念已经被发现、缺乏概念标签的上下文信息以及只关注基本概念而非复杂概念。为了解决这些问题,本文提出了一个新的基准数据集,利用MedMentions数据集和SNOMED CT本体构建了一个支持发现和放置未在本体中的概念的任务。
-
Authors: Hang Dong, Jiaoyan Chen, Yuan He, Ian Horrocks
-
Affiliation: University of Oxford (牛津大学)
-
Keywords: ontology enrichment, concept discovery, concept placement, biomedical dataset
-
Paper: Link to the paper
Github: Link to the code -
论文总结:
- (1): 本文的研究背景是从文本中发现新概念并将其放置到知识库中,特别是在生物医学领域中,这对于科学发现和知识库构建非常重要。
- (2): 过去的方法存在一些问题,如假设新概念已经被发现、缺乏概念标签的上下文信息以及只关注基本概念而非复杂概念。本文的方法针对这些问题进行了改进,并提出了一个新的基准数据集。
- (3): 本文提出了一个新的任务设置和数据集构建方法,支持从文本中发现未在知识库中的概念,并将其放置到本体中。通过使用基于大型语言模型的方法进行评估,展示了数据集的用途和性能。
- (4): 本文的方法在发现未在知识库中的概念和概念放置方面取得了良好的性能,可以有效支持其目标。本文的创新点在于提出了一个新的任务设置和数据集,以及使用大型语言模型进行评估。
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文提出了一种从文本中丰富本体的方法,通过将新概念插入到知识库中,实现概念的发现和放置。
b. 方法的详细步骤:
(1). 概念发现和放置任务:该任务将语料库中的上下文、知识库中的内部和外部概念作为输入,并输出一个丰富的知识库,其中每个外部概念都被插入到知识库的有向边中,作为父概念和子概念之间的关系。当外部概念是叶子概念时,子概念被视为空。
(2). 关键定义:
- OWL本体:一种包含一组公理的描述逻辑知识库,主要由形如⊑的一般概念包含公理组成。
- TBox:本体中的术语部分,主要由形如⊑的一般概念包含公理组成。
- 税理:本体中的概念和有向边的集合,可以包含原子概念和复杂概念。
- 复杂边:具有复杂概念作为父概念的边,复杂概念指涉包含逻辑运算符的概念。
- 理想的数据集:包含真实世界文本语料库和大型本体的数据集,其中每个外部概念都与语料库中的提及链接,并具有与之对应的金标准有向边。
(3). KB和子集选择:
- 选择SNOMED CT作为本体,并根据疾病子类别和临床发现、过程、药物/生物制品等更广泛的类别选择子集。
- 子集选择包括两个步骤:将等价公理转化为包含公理,并删除其他类别。
(4). KB版本控制:
- 使用KB版本控制策略合成旧版本KB的外部实体。
- 提取旧版本KB中的有向边,包括内部和外部实体。
(5). 提及-边数据创建:
- 使用包含提及和UMLS实体对齐的MedMentions语料库创建提及-边数据集。
- 将每个提及和其对应的边映射到旧版本KB中的有向边,并生成JSON格式的数据。
(6). 数据用于评估指标:
- 数据集支持评估指标,包括整体准确率、外部提及的准确率、召回率和F1分数,以及内部提及的准确率、召回率和F1分数。
(7). 提供两种数据格式:
- 提及级别的数据,每个提及对应一个边。
- 提及-边对级别的数据,每个提及-边对占据一行,如果有多个边,则提及重复。
(8). 统计数据:
- 数据集的统计信息包括不同类别下的边的数量。
(9). 总结:
本文提出了一种从文本中丰富本体的方法,通过将新概念插入到知识库中,实现概念的发现和放置。具体步骤包括概念发现和放置任务、KB和子集选择、KB版本控制、边提取、提及-边数据创建和数据用于评估指标。该方法在丰富本体方面具有重要的应用价值。
实验设置:
- 实验设置(Experimental setting):
本文的实验设置主要包括两个任务:Out-of-KB Mention Discovery(发现知识库之外的提及)和Concept Placement(概念放置)。
(1). Out-of-KB Mention Discovery任务:
- 使用基于规则的方法和基于最近的大型语言模型(LLM)的方法进行实验。
- 对于LLM方法,采用了BLINKout的方法来从文本中检测出-of-KB提及,使用了基于BERT的两步骤方法:候选生成和候选选择。其中,通过NIL实体表示和交叉编码器中的分类来发现out-of-KB提及。
- 使用了默认参数,包括top-value为50,领域特定的SapBERT模型。
(2). Concept Placement任务:
- 使用mention-edge对来训练和验证模型,将知识库中的提及与其在知识库中的金标准有向边进行匹配,并在out-of-KB提及上进行测试,采用了无监督的设置。
- 模型架构包括边候选生成和可选的边选择。对于边候选生成,采用了基于BERT的双编码器,通过上下文提及和边的输入来匹配本体中的有向边。
- 在top-边中选择排名靠前的边。对于可选的边选择,使用了零样本提示的LLM(GPT-3.5)来测试选择正确边的能力。
- 使用了GPT-3.5从top-50边候选中选择top-1。提示包括一个标题、上下文提及和top-候选边,用于查询LLM以选择正确的边。
以上是本文的实验设置内容。
实验结果:
实验结果和分析:
本文的实验主要涉及两个任务:out-of-KB mention发现和概念放置。对于out-of-KB mention发现任务,使用了基于规则的方法和最近的基于大型语言模型(LLM)的方法进行实验。实验结果表明,LLM方法(BLINKout)在整体准确率和out-of-KB 1得分方面表现优于基于筛选的方法。然而,识别out-of-KB mention仍然具有挑战性,准确率在15%到30%之间。
对于概念放置任务,使用了mention-edge对来训练和验证模型,将in-KB mention与知识库中的gold-standard directed edges进行匹配,并在out-of-KB mention上进行测试。实验结果表明,概念放置作为边缘预测非常具有挑战性。使用GPT-3.5选择top-1边缘候选项在结果上并没有改进,或者只有微小的改进。这表明目前的LLM方法在与形式化的领域特定知识进行零-shot提示时存在局限性。
总体而言,本文提出了一个新的基准,用于从文本中进行本体论丰富,通过概念发现和放置。该数据集支持更全面的特征集,包括NIL发现、上下文术语、概念放置和复杂概念。实验结果表明,目前的LLM方法在该基准上的表现仍然不尽如人意,需要进一步研究来解决这一挑战。
P:7 06-26 SUGARCREPE:修复视觉语言组合性的易受攻击基准
-
Title: SUGARCREPE: Fixing Hackable Benchmarks for Vision-Language Compositionality
-
Authors: Cheng-Yu Hsieh, Jieyu Zhang, Zixian Ma, Aniruddha Kembhavi, Ranjay Krishna
-
Affiliation: University of Washington
-
Keywords: vision-language compositionality, benchmarks, hackability, biases
-
Paper: Link to the paper
-
Github: Link to the code
-
Summary:
-
(1): The research background of this article is the evaluation of compositionality in vision-language models and the need for unbiased benchmarks.
-
(2): The past methods for evaluating compositionality have significant biases and are hackable, leading to inaccurate results. The approach in this paper aims to address these biases and provide a more reliable benchmark.
-
(3): The research methodology proposed in this paper is the introduction of SUGARCREPE, a new benchmark for vision-language compositionality evaluation. It utilizes large language models to generate fluent hard negatives and employs an adversarial refinement mechanism to reduce biases. The innovation lies in the use of modern language models and the adversarial refinement process.
-
(4): The methods in this paper are evaluated on existing benchmarks and compared with state-of-the-art models. The performance achieved on SUGARCREPE highlights the biases in previous benchmarks and the need for more innovative techniques to improve compositionality in vision-language models.
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文介绍了SUGARCREPE,一种用于评估视觉语言模型组合性的新基准。通过使用大型语言模型生成流畅且有意义的困难负例,并利用对抗性改进机制最大程度地减少偏差,SUGARCREPE显著降低了现有基准中的偏差。
b. 方法的详细步骤:
(1). 介绍SUGARCREPE基准:基于COCO数据集的图像-文本对,SUGARCREPE在现有基准的基础上提供了两个关键改进:(1)大幅减少了已识别的两个数据集偏差,(2)涵盖了广泛的细粒度困难负例类型。
(2). 模型得分差距计算:
- 对于每个候选项,计算模型M1和M2对正例和负例的得分差距g(1)i和g(2)i。
(3). 网格划分:
- 将2D空间[-1, 1] × [-1, 1]划分为K × K个等大小的网格。
(4). 候选项分配:
- 根据得分差距g(1)i和g(2)i,将每个候选项分配到一个网格中。
(5). 候选项选择:
- 初始化候选项集合D为空。
- 对于每对关于原点(0, 0)对称的网格(Gj, Gj):
- 如果|Gj| > |Gj|,则从Gj中随机选择|Gj|个候选项放入D,并将Gj中的候选项放入D。
- 否则,从G*j中随机选择|Gj|个候选项放入D,并将Gj中的候选项放入D。
(6). 对抗性改进算法:
- 对称性意味着无法再使用常识和语法得分来推断真实的正例文本。
- 提供了对抗性改进算法的详细步骤。
以上是本文方法的详细步骤。通过引入SUGARCREPE基准和对抗性改进机制,本文解决了现有基准中存在的偏差问题,并提供了更准确评估视觉语言模型组合性的方法。
实验设置:
- 实验设置(Experimental setting):
本文介绍了一个名为SUGARCREPE的新的视觉-语言组合性评估基准。为了生成更加合理和流畅的难例负样本,研究者采用了大型语言模型(ChatGPT)而不是之前基于规则的模板。为了最大程度地减少偏差,研究者还使用了对抗性的改进机制。通过比较SUGARCREPE和之前的基准(ARO+CREPE)的分数差异分布,研究者发现SUGARCREPE的难例负样本具有更低的偏差,并且经过对抗性改进后,SUGARCREPE的评估集中的偏差已经被最大程度地减少。此外,研究者还评估了17个预训练的CLIP模型在SUGARCREPE上的性能,并发现目前的模型在组合性方面仍有很大的改进空间。研究者还发现,所有模型在识别SWAP难例负样本方面都存在困难,而现有的预训练模型在组合对象方面比属性和关系更擅长。最后,研究者还发现模型在SUGARCREPE上的性能与它们在ImageNet上的零样本准确率呈正相关。
实验结果:
实验结果和分析:
本文通过实验结果和分析,得出以下结论:
-
SUGARCREPE生成了更加合理和流畅的难例文本。通过利用ChatGPT生成的难例文本,SUGARCREPE相比之前基于规则的方法生成的难例文本质量更高。
-
SUGARCREPE消除了现有基准中的偏见。通过对比ARO+CREPE和SUGARCREPE的分数差异分布,发现SUGARCREPE的难例文本在去除偏见后,分数差异分布围绕零点对称,表明之前的偏见无法被利用来推断正例文本。因此,之前在现有基准上非常成功的常识和语法攻击在SUGARCREPE上不起作用。
-
SUGARCREPE评估了17个预训练的CLIP模型,发现最好的模型在替换对象(REPLACE-OBJ)任务上接近人类表现。然而,在其他难例类型上,包括替换属性(REPLACE-ATT)和替换关系(REPLACE-REL),最好的模型与人类表现之间存在明显差距,显示当前模型在组合性方面仍有很大的改进空间。
-
所有模型在识别交换(SWAP)难例上都表现困难,无论其预训练数据集和模型大小如何。在SWAP-OBJ和SWAP-ATT难例上,所有模型的性能都很低,与人类表现的差距达到27%至50%。
-
现有模型更擅长组合对象而不是属性和关系。研究发现,现有的预训练模型在组合对象方面比组合属性和关系方面表现更好。此外,模型在ImageNet的零样本准确率与其在SUGARCREPE上的检索召回率呈正相关。
综上所述,本文通过实验结果和分析揭示了现有基准的漏洞,并对预训练的CLIP模型在组合性方面的表现进行了评估。实验结果表明,目前的模型在组合性方面仍有改进的空间,并提出了SUGARCREPE作为一个新的基准来评估模型的组合性。
P:8 06-26 探索大型语言模型在解决编程问题时的鲁棒性
-
Title: Exploring the Robustness of Large Language Models for Solving Programming Problems
-
论文简介: 本文探讨了大型语言模型在解决编程问题时的鲁棒性。
-
Authors: Atsushi Shirafuji, Yutaka Watanobe, Takumi Ito, Makoto Morishita, Yuki Nakamura, Yusuke Oda, Jun Suzuki
-
Affiliation:
University of Aizu (会津大学) -
Keywords: large language models, code generation, programming problems, prompt engineering
-
Paper: Link to the paper
Github: None -
论文总结:
-
(1): 本文的研究背景是大型语言模型在解决编程问题方面的应用。
-
(2): 过去的方法存在问题,尚未发现大型语言模型是否真正理解问题描述并生成相应的程序。
-
(3): 本文提出了一种研究方法,通过实验评估了几种流行的大型语言模型在解决编程问题时的鲁棒性,并发现最新的模型在处理问题描述时表现更加稳健。
-
(4): 本文在解决编程问题的任务上评估了几种大型语言模型的性能,发现最新的模型在处理问题描述时具有较高的鲁棒性,这对于高质量的代码生成至关重要。该研究为开发人员和研究人员提供了关于如何有效利用大型语言模型的见解。
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文通过实验研究了大型语言模型(LLMs)在解决编程问题时的鲁棒性,发现Codex和CodeGen对问题描述的表面修改非常敏感,而InstructGPT和ChatGPT模型对表面修改具有更高的鲁棒性。
b. 方法的详细步骤:
(1). 格式化问题描述:使用一组预定义规则对问题描述进行格式化,以检查生成的程序之间的差异。
(2). 修改问题规范:修改问题规范,观察对生成的程序和解决率的影响。
(3). 代码生成:使用LLMs生成编程代码。
(4). 程序自动评估:对生成的程序进行自动评估,检查其输出是否符合指定的格式要求。
(5). 程序手动评估:对生成的程序进行手动评估,检查其正确性和效率。
(6). 解决率计算:计算生成的程序的解决率,即成功解决问题的比例。
(7). 实验结果分析:分析实验结果,比较不同模型在鲁棒性方面的表现。
以上是本文的方法步骤,通过对问题描述的格式化和问题规范的修改,以及对生成的程序进行自动评估和手动评估,来研究LLMs在解决编程问题时的鲁棒性。实验结果表明,Codex和CodeGen对问题描述的表面修改非常敏感,而InstructGPT和ChatGPT模型对表面修改具有更高的鲁棒性。这一发现强调了对LLMs给出的提示进行仔细格式化的重要性,同时也表明SOTA模型在面对扰动时变得更加鲁棒。
实验设置:
- 实验设置(Experimental setting):
本文的实验旨在探索大型语言模型(LLMs)在解决编程问题方面的鲁棒性。作者选择了几种流行的LLMs,包括CodeGen和GPT-3.5系列模型,以进行代码生成任务的实验。实验分为两个部分:第一部分是通过一组预定义规则对问题描述进行格式化,以检查生成的程序之间的差异;第二部分是修改问题规范,观察这些修改对生成的程序和解决率的影响。实验框架如图2所示。在本节的实验中,每个LLM为40个问题生成100个程序,并由评判系统自动验证结果。表1显示了四个模型(CodeGen、Codex、InstructGPT和ChatGPT)在不同问题格式化类型下的平均解决率。
实验结果:
- 实验结果和分析:
该研究通过实验探索了几种流行的大型语言模型(LLMs)在解决编程问题时的鲁棒性。实验结果表明,CodeGen和Codex对问题描述的表面修改非常敏感,并且显著影响了代码生成的性能。此外,研究还观察到Codex对变量名称依赖较强,随机化变量会显著降低解决率。然而,InstructGPT和ChatGPT等最先进的模型对表面修改具有更高的鲁棒性,并且在解决编程问题方面具有出色的能力。这表明,对LLMs给出的提示进行轻微修改可以极大地影响代码生成的性能,因此仔细格式化提示对于高质量的代码生成至关重要,而最先进的模型对扰动的鲁棒性越来越强。
具体实验结果如下:
(1) 在对问题描述进行预定义规则格式化的实验中,CodeGen、Codex、InstructGPT和ChatGPT四个模型的平均解决率如表1所示。
(2) 实验结果显示,CodeGen和Codex对问题描述的表面修改非常敏感,而InstructGPT和ChatGPT对表面修改具有更高的鲁棒性。
(3) Codex对变量名称依赖较强,随机化变量会显著降低解决率。
(4) 最先进的模型InstructGPT和ChatGPT在解决编程问题方面表现出色,具有更高的鲁棒性。
总结来说,该研究的实验结果表明,对LLMs给出的提示进行轻微修改可以极大地影响代码生成的性能,而最先进的模型对扰动的鲁棒性越来越强。
P:9 06-26 通过稳健的指令调整对齐大型多模态模型
-
Title: Aligning Large Multi-Modal Model with Robust Instruction Tuning
-
论文简介: 本文介绍了一种解决大型多模态模型(LMM)在图像和人类指令相关性上产生不一致描述的方法。通过引入大规模多样化的视觉指令调整数据集(LRV-Instruction),作者成功缓解了LMM的幻觉问题,并在公共数据集上取得了更好的性能。此外,作者观察到在训练数据中平衡正负实例的比例可以得到更强大的模型。
-
Authors: Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
-
Affiliation:
Fuxiao Liu: University of Maryland, College Park -
Keywords: large multi-modal models, hallucination, visual instruction tuning, robustness, instruction dataset
-
Paper: Link to the paper Github: None
-
论文总结:
-
(1): 本文的研究背景是多模态模型在图像和人类指令相关性上存在幻觉问题。
-
(2): 过去的方法主要集中在正指令样本上,忽略了负指令样本的重要性。本文提出了包含正负指令的大规模数据集,并通过GPT4-Assisted Visual Instruction Evaluation(GAVIE)方法评估模型的性能。
-
(3): 本文提出了LRV-Instruction数据集和GAVIE方法,用于更好地调整LMM的视觉指令。通过在LRV-Instruction上对MiniGPT4进行微调,成功缓解了幻觉问题,并在公共数据集上取得了更好的性能。
-
(4): 本文在16个视觉-语言任务上评估了现有LMMs的幻觉问题,并通过在LRV-Instruction上对MiniGPT4进行微调,取得了优于其他方法的性能。这些方法的性能支持了他们的目标,并在数据集上取得了创新和贡献。
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文介绍了一种用于大规模多模态模型的鲁棒指令调整的方法,通过引入大规模多样化的视觉指令调整数据集LRV-Instruction,以及一种新颖的评估方法GAVIE,成功减轻了现有多模态模型在负面指令下的错误生成问题。
b. 方法的详细步骤:
(1). 构建数据集LRV-Instruction:
- 基于GPT4模型,利用其在文本注释任务中的成功经验,自动生成了大规模的视觉指令数据集LRV-Instruction。
- LRV-Instruction包含了120k个由GPT4生成的视觉指令,涵盖了16个视觉与语言任务,包括开放式指令和答案。
- 与现有研究主要关注正面指令样本不同,LRV-Instruction设计了包含正面和负面指令的数据集,以实现更鲁棒的视觉指令调整。
- 负面指令分为两个语义层次:不存在元素操作和存在元素操作。
(2). 提出评估方法GAVIE:
- 为了高效评估多模态模型的错误生成情况,本文提出了一种新颖的评估方法GAVIE。
- GAVIE不需要人工标注的答案作为参考,可以适应不同的指令格式。
(3). 实验验证多模态模型的错误生成情况:
- 通过进行全面的实验,本文验证了现有多模态模型在负面指令下的错误生成问题。
- 实验结果表明,现有多模态模型在存在元素操作的负面指令下表现出明显的错误生成。
(4). 使用LRV-Instruction对MiniGPT4进行微调:
- 通过将MiniGPT4模型在LRV-Instruction上进行微调,成功减轻了错误生成问题,并在公共数据集上提高了性能。
- 与现有方法相比,本文方法使用更少的训练数据达到了更好的效果。
(5). 发现平衡的正负样本比例对模型的鲁棒性的影响:
- 本文观察到,在训练数据中平衡的正负样本比例可以使模型更加鲁棒。
(6). 其他细节:
- 本文还介绍了数据集构建过程中的一些细节,如使用Visual Genome数据集提供详细的视觉信息,以及通过限制答案长度来减少生成的不相关信息。
(7). 项目链接:
- 本文的项目链接可在给定的链接中找到。
(8). 预印本和审稿状态:
- 本文为预印本,正在审稿中。
实验设置:
- 实验设置(Experimental setting):
本文构建了一个用于视觉指令调优的模型,基于MiniGPT4 [39]。该模型由Vision transformer [22]作为图像编码器,Vicuna [7]作为文本解码器以及一个预训练的Q-Former连接它们组成。Q-Former用于从冻结的图像编码器中提取视觉特征。在将其作为视觉提示输入到冻结的Vicuna之前,我们使用可学习的线性投影层来缩小提取的视觉特征与Vicuna嵌入之间的差距。具体的提示如下所示:“给出以下图像:ImageContent。我提供图像后,您将能够看到它。请回答我的问题。###Human: Instruction ###Assistant: Answer”,其中"ImageContent“是一个模板,用于让Vicuna知道图像特征将放置在两个特殊标记”“和”“之间。”"是实际的图像特征插槽。“Instruction"和"Answer"分别表示人类指令和模型输出文本。为了评估图像字幕任务中的物体幻觉,引入了CHAIR [29]。然而,CHAIR通常需要复杂的人工制定规则。相反,[18]将物体幻觉的评估形式化为一个二分类任务,提示LMM输出"Yes"或"No”。然而,以开放式方式评估LMM的输出是困难的。此外,这两种方法都高度依赖于人工标注的真实答案。因此,本文引入了GPT4辅助的视觉指令评估(GAVIE)作为一种更灵活、更稳健的方法。我们使用的通用提示在附录中展示。GPT4将密集的标题与边界框坐标作为图像内容,并比较人类指令和模型响应。然后,我们要求GPT4充当一个智能教师,对学生的答案进行评分(0-10)。在训练细节方面,我们从MiniGPT4的第一个预训练阶段检查点初始化模型。然后,我们使用线性投影层作为唯一可学习的模块,在我们的数据集上进行指令调优。对于超参数,我们使用批大小为1,初始200步的线性预热学习率为1e-6,权重衰减为0.05。我们在NVIDIA Quadro RTX 8000 GPU上训练模型,最大训练轮数为20。我们随机选择了1000个实例进行评估,其余实例用于微调。
实验结果:
实验结果和分析:
本文通过构建了一个基于MiniGPT4的视觉指令调优模型,对现有的大型多模态模型(LMM)进行了幻觉分析。实验结果表明,现有的LMM在面对负面指令时会出现显著的幻觉,特别是在存在元素操作的指令中。通过在LRV-Instruction上对MiniGPT4进行微调,成功减轻了幻觉,并在公共数据集上提高了性能。此外,实验还观察到在训练数据中平衡正负实例的比例可以得到更稳健的模型。
具体实验细节和结果未在输入内容中提供。
P:10 06-26 面向形式感知机器翻译的数据驱动方法:语言特定处理和合成数据生成
-
Title: Data-Driven Approach for Formality-Sensitive Machine Translation: Language-Specific Handling and Synthetic Data Generation
-
Authors: Seugnjun Lee, Hyeonseok Moon, Chanjun Park, Heuiseok Lim
-
Affiliation:
- Department of Computer Science and Engineering, Korea University, Seoul 02841, Korea
- Upstage, Gyeonggi-do, Korea.
-
Keywords: Formality-Sensitive Machine Translation, data-driven approach, language-specific handling, synthetic data generation
-
Paper: Link to the paper
Github: None -
Summary:
- (1): The research background of this article is the need for formality-sensitive machine translation (FSMT) to control the level of formality in translated text across languages.
- (2): Previous methods in neural machine translation (NMT) models have overlooked style and pragmatic aspects, such as formality. The lack of gold standard translations with different formality levels and diverse formality markers across languages poses challenges. The approach in this paper is well motivated to address these challenges.
- (3): The research methodology proposed in this paper is a data-centric approach for FSMT. It includes language-specific data handling and synthetic data generation using large-scale language models and prompt engineering. The innovation lies in the effective use of data-centric techniques and prompt engineering to improve translation performance.
- (4): The methods in this paper are evaluated on the English-Korean (EN-KO) and English-Vietnamese (EN-VI) language pairs. The performance achieved in terms of BLEU score, COMET score, %M-ACC, and %C-F demonstrates the effectiveness of the approach, especially in EN-KO and EN-VI translations. The performance supports the goals of achieving formality control and showcases the translation capabilities of ChatGPT.
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文介绍了一种数据驱动的正式感知机器翻译方法,针对四种目标语言的独特语言特性进行处理,主要包括语言特定数据处理和使用大规模语言模型和经验提示工程生成合成数据的两个核心策略。
b. 方法的详细步骤:
(1). 语言特定数据处理:采用语言专用的数据中心方法,将迁移学习技术与语言特定的子词方法相结合,通过对每种语言对的有监督训练集进行预训练和微调,提高翻译性能。
(2). 合成数据生成:针对低资源环境和代表性不足的领域,采用数据中心方法生成合成示例。使用GPT-4引擎的ChatGPT生成合成数据,通过条件翻译生成任务和形式分类器的精炼,确保准确的形式控制。
(3). 监督设置:采用基于提示的方法,从各种语言对的英文训练集中随机选择n个片段作为上下文,引导ChatGPT在正式或非正式目标语言中生成翻译。在使用预训练的多语言翻译模型进行微调之前,对示例进行准确的形式性过滤。这种方法最大限度地提高了模型在不同语言和形式性水平上的泛化能力,展示了合成数据在扩展预训练语言模型能力方面的实用性。
实验设置:
- 实验设置(Experimental setting):
本文介绍了一种针对四种目标语言的形式感知机器翻译(FSMT)的数据驱动方法。该方法的核心策略包括:1)针对不同语言的数据处理,2)使用大规模语言模型和经验提示工程生成合成数据。该方法在基线模型上取得了显著的改进,突出了数据中心技术的有效性。我们的提示工程策略通过生成更好的合成翻译示例进一步提高了性能。
(1). 数据中心方法在监督学习和零样本设置下取得了有希望的结果,具体见表1和表2。我们的模型在形式感知数据集上训练,展现出接近完美的形式控制能力,并在大多数任务中具有高翻译准确性,尤其是在EN-KO和EN-VI语言对中。然而,使用ChatGPT进行数据增强有时会导致性能下降,暗示需要考虑形式控制的更精细提示。值得注意的是,零样本EN-PT任务的结果显著较低,表明需要针对每个语言对的形式控制采用专门的技术,并揭示了ChatGPT中可能存在的训练数据偏差。我们提出了一种数据中心的FSMT方法,结合了语言特定技术和合成数据生成。
(2). 实验数据包括形式感知数据集和ChatGPT生成的合成数据。形式感知数据集用于训练模型,并评估模型在各个任务上的性能。ChatGPT生成的合成数据用于数据增强,以提高模型的泛化能力。实验中使用的语言对包括EN-KO、EN-VI和EN-PT。
(3). 实验中的评估指标包括形式控制能力和翻译准确性。形式控制能力通过计算模型生成的翻译结果与目标形式之间的匹配程度来衡量。翻译准确性通过计算模型生成的翻译结果与参考翻译之间的BLEU分数来衡量。
(4). 实验结果表明,我们的数据中心方法在形式感知机器翻译任务中取得了显著的改进。模型在大多数任务中展现出高形式控制能力和翻译准确性。然而,在某些任务中,使用ChatGPT生成的合成数据进行数据增强可能会导致性能下降。这表明在形式控制方面需要更精细的提示工程策略。
(5). 实验结果还揭示了零样本EN-PT任务的挑战和ChatGPT训练数据偏差的问题。这表明在形式感知机器翻译中,针对每个语言对采用专门的形式控制技术是必要的。
(6). 我们的方法为形式感知机器翻译提供了一种数据驱动的解决方案,结合了语言特定技术和合成数据生成。这种方法在提高形式控制能力和翻译准确性方面具有潜力,并为进一步研究提供了启示。
实验结果:
实验结果和分析:
本文介绍了一种针对四种目标语言的数据驱动形式感知机器翻译(Formality-Sensitive Machine Translation,FSMT)方法。该方法采用两种核心策略:1)语言特定的数据处理,2)使用大规模语言模型和经验提示工程生成合成数据。实验结果表明,这种数据中心的方法相比基线模型有显著改进,突出了数据中心技术的有效性。我们的提示工程策略通过生成更好的合成翻译示例进一步提高了性能。
具体实验结果如下:
- 在有监督设置下,我们的数据中心方法在Formality Dataset上训练的模型表现出接近完美的形式控制能力,并在大多数任务中具有较高的翻译准确性,特别是在EN-KO和EN-VI语言对中。
- 然而,使用ChatGPT进行数据增强有时会导致性能下降,这暗示了在考虑形式控制时需要更精细的提示。值得注意的是,零-shot EN-PT任务的结果显著较低,这表明需要针对每个语言对的形式控制采用专门的技术,并揭示了ChatGPT中可能存在的训练数据偏差。
- 我们提出了一种数据中心的FSMT方法,结合了语言特定技术和合成数据生成。
实验结果显示,我们的方法在形式感知机器翻译任务中取得了有希望的结果,通过针对不同语言的特点进行数据处理和合成数据生成,能够显著提高翻译性能。然而,对于形式控制,仍需要更加精细的提示工程和针对不同语言对的专门技术。这些实验结果为进一步改进形式感知机器翻译提供了有价值的参考。
P:11 06-26 ChatIDS: 使用生成式人工智能的可解释性网络安全
-
- Title: ChatIDS: Explainable Cybersecurity Using Generative AI
-
论文简介: 本文介绍了一种使用生成式人工智能的ChatIDS方法,通过大型语言模型解释IDS警报并向非专家用户提供安全措施的直观解释。
-
- Authors: Victor J¨uttner, Martin Grimmer, Erik Buchmann
-
- Affiliation:
Dept. of Computer Science, Leipzig University, Germany (莱比锡大学计算机科学系,德国)
- Affiliation:
-
- Keywords: Intrusion Detection, ChatGPT, Networks
-
- Paper: Link Github: None
-
- 论文总结:
-
(1):本文的研究背景是私人网络的网络安全问题,特别是在家庭网络、智能家居和远程办公等场景下,IDS警报对非专家用户来说很难理解。
-
(2):过去的方法无法解决非专家用户理解IDS警报和采取适当措施的问题。本文的方法通过使用大型语言模型,提供直观的解释和安全措施建议,解决了这一问题。
-
(3):本文提出了ChatIDS方法,通过将IDS警报发送给大型语言模型,生成直观的解释,并允许用户进行交互式提问。这一方法在IDS警报解释方面具有创新性和贡献。
-
(4):本文在典型的IDS警报上进行了实验,结果表明ChatIDS能够提供直观的安全措施建议。然而,由于用户的不同,很难衡量ChatIDS是否真正提高了网络安全性。本文的创新和贡献在于提供了一种可行的方法来解释IDS警报并提供安全措施建议。
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文提出了一种名为ChatIDS的方法,利用生成式人工智能模型将入侵检测系统(IDS)的警报解释给非专家用户,并提供直观的安全措施建议,从而增加网络安全性。
b. 方法的详细步骤:
(1). ChatIDS的信息流程如图1所示。网络IDS组件检查通过路由器的网络数据包,对可疑流量生成警报。IDS应该是基于签名的IDS,以便其警报消息足够具体,以供大型语言模型(LLM)使用。
(2). LLM组件包含一个大型语言模型,负责将IDS的警报翻译成非专家用户可以理解的语言。此外,该组件可以以交互方式使用:如果用户不理解解释或建议的措施,他们可以要求详细信息。与IDS类似,LLM也是ChatIDS的外部组件。
(3). ChatIDS组件是我们方法的核心。ChatIDS接收来自IDS组件的警报,将其发送到LLM组件进行直观解释的翻译,并向用户呈现带有解释的用户界面。如果用户需要进一步支持,他们可以使用界面向LLM发送后续问题。为了将警报转化为直观解释,ChatIDS组件包含预定义的LLM提示模板。
(4).出于隐私原因,在将警报发送到LLM组件之前,ChatIDS会对警报进行三种方式的匿名处理:首先,ChatIDS会从警报中删除任何设备标识符或网络信息。其次,ChatIDS将匿名警报与一组虚假警报一起发送到LLM组件,以便该组件无法确定真实警报。LLM组件的解释被存储在缓存中,以便不必重复请求相同的解释。由于本文包含的是正在进行的工作,我们使用选定的用例对ChatIDS进行了评估。
实验设置:
- 实验设置(Experimental setting):
本文的实验设置如下所示。首先,假设一个家庭网络,其中包含多个智能家居设备。路由器将网络连接到互联网,并能够观察到所有的网络数据包。在本实验中,假设一个名为Philips Hue Bridge的设备受到攻击。为了实现基于网络的入侵检测系统(IDS),在路由器上安装了Snort、Suricata、Yara或Sigma规则集的其中一个。从每个IDS实现中,选择两个警报进行实验。这些警报被分类为重要警报,需要用户进行干预。实验的目标是以用户能够理解的方式解释警报,并向用户提供清晰、简单和非技术性的指示。为了实现这一目标,使用ChatGPT(gpt-3.5-turbo)来实现ChatIDS,并将每个警报嵌入到ChatGPT的提示中。实验结果表明,ChatIDS有潜力通过提供直观的语言来增加网络安全性。然而,在将ChatIDS投入实际应用之前,还需要解决一些潜在的问题,如信任、隐私、伦理等。
实验结果:
- 实验结果和分析:
ChatIDS是一种利用生成式人工智能(AI)来解释入侵检测系统(IDS)警报的方法。研究人员使用ChatGPT模型来评估ChatIDS的可行性,并与人工智能领域的跨学科专家合作,确定了一些开放的研究问题。实验结果表明,ChatIDS有潜力通过以直观的语言提出有意义的安全措施来提高网络安全性。然而,在将ChatIDS投入实际应用之前,还需要解决一些潜在的问题,如信任、隐私、伦理等。
ChatIDS的实验结果表明,使用ChatGPT生成的解释在描述问题和理解度方面表现良好。每个生成的解释都是正确的,并且ChatGPT能够解释忽略警报的后果,并传达一种紧迫感。然而,在描述对策和使用非直观术语方面仍有改进的空间。
总的来说,ChatIDS的实验结果显示了其潜力和可行性,但还需要进一步的研究和改进,以解决一些潜在的问题,并确保其在实际应用中的有效性和可靠性。
P:12 06-26 Fauno: 意大利大型语言模型,让你无言以对!
-
- Title: Fauno: The Italian Large Language Model that will leave you senza parole!
-
论文简介: 本文介绍了Fauno,这是第一个也是最大的开源意大利对话式大型语言模型(LLM)。通过Fauno,我们旨在推动意大利语言模型的研究民主化,证明只使用单个GPU就可以获得一个经过精细调整的对话机器人。此外,我们还发布了一系列用于意大利语对话式人工智能的数据集。我们在Fauno上进行精细调整的数据集包括一般问题回答、计算机科学和医学问题等各种主题。我们在https://github.com/RSTLess-research/Fauno-Italian-LLM上发布了我们的代码和数据集。
-
- Authors: Andrea Bacciu, Giovanni Trappolini, Andrea Santilli, Emanuele Rodolà, Fabrizio Silvestri
-
- Affiliation:
Sapienza University - Department of Computer, Control and Management Engineering (Andrea Bacciu, Giovanni Trappolini, Fabrizio Silvestri)
Sapienza University - Computer Science Department (Andrea Santilli, Emanuele Rodolà)
- Affiliation:
-
- Keywords: Large Language Models, Conversational AI, Multilingual Models, ChatGPT
-
- Paper: None Github: https://github.com/RSTLess-research/Fauno-Italian-LLM
-
- 论文总结:
-
(1):本文的研究背景是自然语言处理方法的能力提升和对话式语言模型的发展。
-
(2):过去的方法存在访问限制和数据集稀缺的问题,限制了研究和开发的进展。本文的方法通过精细调整和训练意大利语对话式语言模型,提供了一个开源的、高效的意大利语对话式人工智能工具。
-
(3):本文提出了Fauno,这是第一个也是最大的开源意大利对话式语言模型。通过翻译和精细调整多个数据集,Fauno在意大利语上取得了良好的生成效果。这为意大利语研究社区提供了一个高效的工具,并为实践者提供了一个处理意大利语的有效对话式人工智能。
-
(4):本文的方法在多个任务上取得了良好的性能,支持了他们的目标和创新。Fauno的开源性和可操作性使其能够被更广泛的实践者和研究者使用。
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文介绍了Fauno,这是第一个也是最大的开源意大利对话式大型语言模型(LLM)。我们的目标是通过Fauno在意大利语中实现细调的对话机器人,并证明只使用一块GPU就可以实现。此外,我们还发布了一系列用于意大利语对话人工智能的数据集,包括常见问题回答、计算机科学和医学问题等多个主题。
b. 方法的详细步骤:
(1). 通过SSH从服务器复制文件的方法:
- 使用以下命令:scp username@ip_dello_server:percorso/della/sorgente/del/file /percorso/della/destinazione/del/file
- 将命令中的详细信息替换为您的用户名、主机名、源文件路径和目标文件路径,然后点击"Avanti"。
- 文件将从服务器复制到您的计算机。
(2). ChatGPT-3.5、Camoscio和Fauno 7B的定性分析:
- 对ChatGPT-3.5、Camoscio和Fauno 7B进行定性分析,比较它们在对话生成方面的表现。
(3). 通过有限资源在多种语言中实现LLM研究的民主化:
- 本文展示了如何通过有限资源在多种语言中实现LLM研究的民主化。
- 通过Fauno的研究,证明了只使用有限资源也可以在意大利语中实现细调的对话机器人。
(4). 发布意大利语对话人工智能数据集:
- 本文发布了一系列用于意大利语对话人工智能的数据集。
- 这些数据集涵盖了常见问题回答、计算机科学和医学问题等多个主题。
- 这些数据集的发布将有助于研究人员进一步开发大型语言模型。
(5). 其他细节:
- 本文还包括其他细节和步骤,但由于篇幅限制,无法一一列举。
综上所述,本文介绍了Fauno这个意大利语对话式大型语言模型的方法。通过细调和使用有限资源,实现了在意大利语中的对话生成。同时,还发布了一系列用于意大利语对话人工智能的数据集,为研究人员进一步开发大型语言模型提供了帮助。
实验设置:
- 实验设置(Experimental setting):
本文介绍了Fauno,这是第一个也是最大的开源意大利对话式大型语言模型(LLM)。作者的目标是通过Fauno来推动意大利语言模型的研究,证明只使用一块GPU就可以获得一个经过精细调整的对话机器人。此外,作者还发布了一系列用于意大利语对话人工智能的数据集。作者使用了多个主题的数据集对Fauno进行了精细调整,包括常规问题回答、计算机科学和医学问题。
(1). Fauno是第一个开源的意大利对话式大型语言模型(LLM)。
(2). 作者的目标是推动意大利语言模型的研究,并证明只使用一块GPU就可以获得一个经过精细调整的对话机器人。
(3). 作者发布了一系列用于意大利语对话人工智能的数据集。
(4). 作者使用了多个主题的数据集对Fauno进行了精细调整,包括常规问题回答、计算机科学和医学问题。
实验结果:
-
实验结果和分析(Experimental results and analysis):
本文介绍了Fauno,这是第一个也是最大的开源意大利对话式大型语言模型(LLM)。通过对Fauno进行定制训练,我们展示了使用单个GPU可以获得精细调整的对话机器人的可能性,旨在推动意大利语言模型的研究民主化。此外,我们还发布了一系列用于意大利语对话人工智能的数据集,包括一般问题回答、计算机科学和医学问题等多个主题。通过对Fauno的输出进行定性分析,与ChatGPT 3.5和Camoscio进行比较。在Table 1中,我们对ChatGPT 3.5、Camoscio和Fauno进行了比较。对于问题“Qual è il senso della vita?”(生命的意义是什么?),ChatGPT的回答是关于生命意义的哲学和神学思考已经持续了几个世纪,没有一个明确或一致的答案。然而,许多人通过不同的方式在生活中找到了意义和目标。有些人通过人际关系和有意义的关系找到意义,有些人通过个人成就和发展自己的激情找到意义。还有一些人通过寻求灵性或信仰来找到更深层次的意义。总的来说,生命的意义可能是一种高度个人化和主观的体验,每个人可能对这个问题有不同的答案。Camoscio的回答是生命的意义在于在生活中找到幸福和满足。此外,Table 1还提供了ChatGPT-3.5、Camoscio和Fauno 7B的定性分析比较。
总结:Fauno是第一个也是最大的开源意大利对话式大型语言模型,通过定性分析与其他模型进行比较,展示了其在回答问题方面的能力。
P:13 06-25 解密代码:通过判别特征分析和数据集优化区分ChatGPT生成的代码和人工编写的代码
-
Title: Deciphering the Code: Distinguishing ChatGPT-Generated Code from Human-authored Code through Discriminative Feature Analysis and Dataset Optimization
-
Authors: Ke Li, Sheng Hong, Cai Fu, Yunhe Zhang, Ming Liu
-
Affiliation: School of Cyber Science and Engineering, Huazhong University of Science and Technology, Wuhan, Hubei, China
-
Keywords: ChatGPT, Code Differentiation, Dataset Cleansing, Machine Learning
-
Paper: Link to the paper
-
Github: None
-
Summary:
- (1): The research background of this article is the need to differentiate between code generated by ChatGPT and code authored by humans, due to concerns about safety, legality, and intellectual property.
- (2): Previous methods in code authorship attribution may not capture subtle distinctions between ChatGPT-generated and human-authored code. The approach in this paper is well motivated to address this issue.
- (3): The research methodology proposed in this paper includes developing a discriminative feature set for differentiation and a dataset cleansing technique for obtaining high-quality datasets. The innovation lies in the effectiveness of the feature set and the dataset cleansing strategy.
- (4): The methods in this paper achieve high accuracy in differentiating ChatGPT-generated code from human-authored code in binary classification tasks. The performance supports the goals of promoting academic integrity, protecting intellectual property, and bolstering software security. The innovations and contributions include the discriminative feature set, dataset cleansing technique, and extensive dataset generation.
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文旨在通过区分ChatGPT生成的代码和人类编写的代码,揭示它们在编程风格、技术水平和可读性方面的差异。为此,研究人员开发了一套区分特征集,并通过消融实验评估了其有效性。此外,他们还设计了一种数据集清洗技术,通过时间和空间分割来减少数据集的不足,并获得高质量的无污染数据集。为了丰富数据资源,研究人员采用了“代码转换”、“特征转换”和“特征定制”技术,生成了包含1万行ChatGPT生成的代码的大规模数据集。本研究的显著贡献包括:提出了一套区分特征集,在二分类任务中高准确度地区分ChatGPT生成的代码和人类编写的代码;设计了生成大规模ChatGPT生成代码的方法;引入了一种数据集清洗策略,从开源代码库中提取出无污染的高质量代码数据集,从而在代码作者归属任务中实现了异常准确度。
b. 方法的详细步骤:
(1). 传统代码作者归属方法的改进:本研究借鉴了传统代码作者归属方法的方法学,但针对本任务的特殊性进行了特征提取过程的调整。传统代码作者归属旨在区分不同个体编写的代码,而本研究的目标是将人类编写的代码与ChatGPT生成的代码分类为两个不同的类别。因此,需要对特征选择进行修改。研究人员通过进行启发式代码特征分析,从传统代码作者归属中调整了特征选择的方法。这使得他们能够构建一套区分特征集,有效地区分人类编写的代码和ChatGPT生成的代码。该特征集包括三个主要类别:词汇特征、结构布局特征和语义特征。这个精细的特征集与传统代码作者归属研究中通常使用的特征集有所不同,专门为本任务量身定制。在接下来的子章节中,我们将详细介绍特征集中每个类别的设计方法。
(2). 词汇特征的分析:研究人员将代码中的词汇分为四个不同的类别进行分析:注释和字符串、标识符、关键字和导入的库。注释和字符串包括单行和多行注释,以及用双引号括起来的字符串。这些文本块反映了作者的文本风格。标识符包括类名、方法名、变量名和接口名,它们揭示了作者的命名约定和库使用模式。关键字是编程语言中固有的保留字,用于控制语法结构、控制流、数据类型和变量声明。分析关键字的使用情况可以了解作者在语言中的编程实践。导入的库包括代码中通过“include”(C++)或“import”(Java)语句引入的标准和第三方库。这反映了作者对各种库的熟悉程度。在进行词汇分析之前,研究人员对代码进行了标记化处理,考虑了标识符中的驼峰命名法或下划线。他们使用空格和标点符号将注释、字符串和标识符中的单词分开。然后,他们根据命名约定将这些标记分割并转换为小写。对于关键字,他们将标记与一组特定于语言的关键字进行比较。对于导入的库,他们保留完整的名称,因为它们代表实体并反映了作者的风格。他们统计了每个词汇类型的数量,并计算了每个词在这些类别中的词频(TF)。在对ChatGPT代码数据集进行初步分析时,研究人员观察到ChatGPT遵循某些常规的格式化标准。虽然这也是人类编写的代码的典型特征,但直接使用传统代码作者归属中的布局特征作为区分因素是不有效的。然而,通过严格的比较分析,研究人员发现了ChatGPT生成的代码特有的细微但区分性的布局和结构特征。他们确定了22个这样的特征,包括注释比例、空行比例、大括号前的换行符是否存在、平均嵌套深度、缩进长度和函数中的平均参数数量等方面。这些特征反映了编码约定和风格,并展示了人类编写的代码和ChatGPT生成的代码之间明显的差异。具体的特征列表请参考表3。
实验设置:
- 实验设置(Experimental setting):
本文的实验设置包括以下几个部分:
(1). 二分类实验:该实验旨在确定使用词汇和布局结构特征来区分ChatGPT生成的代码和人工编写的代码的可行性,重点关注C++和Java语言。为了评估性能,使用准确率、精确率、召回率和F1分数等指标,并进行消融研究以调查每个特征集的贡献。
(2). 词频分析实验:该实验通过可视化和统计分析ChatGPT和人工编写的C++和Java代码中的词语使用差异。具体研究评论、字符串、标识符、关键字和导入的包/头文件的频率。对比频率并考虑ChatGPT的文档和相关研究以获得额外的上下文,提供特定变化的分析。
(3). 分析实验:该实验研究ChatGPT和人类在解决相同编程问题时生成的代码之间的语义差异。由于语义特征提取的复杂性以及资源和时间的限制,该实验主要用于提供见解并激发未来的研究。具体地,我们向ChatGPT提供了来自LeetCode的100个算法问题,并评估了难度级别、通过率、可执行性、正确性以及时间和空间性能等各个方面。
(4). 数据集优化:为了获得高质量的数据集,本文采用了时间和空间分割的数据集清洗技术,从开源代码库中提取出纯净、高品质的代码数据集。此外,还采用了"代码转换"、"特征转换"和"特征定制"技术,生成了包含1万行ChatGPT生成的代码的广泛数据集。
总结以上实验设置,本文通过二分类实验、词频分析实验和分析实验来区分ChatGPT生成的代码和人工编写的代码,并通过数据集优化技术获得高质量的数据集。
实验结果:
- 实验结果和分析:
(1). 二分类实验:该实验旨在利用词法和布局结构特征区分ChatGPT生成的代码和人类编写的代码,重点关注C++和Java。我们特别使用词法和布局结构特征,因为它们对于机器学习模型来说是容易量化的。我们使用准确率、精确率、召回率和F1分数等指标进行性能评估,并进行消融研究以调查每个特征集的贡献。
(2). 词频分析实验:该实验通过可视化和统计分析ChatGPT和人类编写的C++和Java代码中的词语使用差异。具体而言,我们研究了注释、字符串、标识符、关键字和导入的包/头文件的频率。我们对频率进行对比,并考虑ChatGPT的文档和相关研究以获得额外的上下文,提供特定变化的分析。
(3). 分析实验:该实验研究了ChatGPT和人类在解决相同编程问题时生成的代码之间的语义差异。由于语义特征提取的复杂性以及资源和时间的限制,该实验主要用于提供见解并激发未来的研究。具体而言,我们向ChatGPT提供了来自LeetCode的100个算法问题,并评估了难度级别、通过率、可执行性、正确性以及时间和空间性能等各个方面。
- 实验结果和分析(Experimental results and analysis):
(1). 二分类实验:通过使用词法和布局结构特征,我们成功区分了ChatGPT生成的代码和人类编写的代码。在C++和Java的二分类任务中,我们的方法在准确率、精确率、召回率和F1分数等指标上取得了高精度。
(2). 词频分析实验:我们发现ChatGPT生成的代码和人类编写的代码在注释、字符串、标识符、关键字和导入的包/头文件的词频上存在差异。通过对比分析,我们得出了特定变化的结论,并提供了ChatGPT文档和相关研究的支持。
(3). 分析实验:我们发现ChatGPT和人类在解决相同编程问题时生成的代码存在语义差异。通过对100个LeetCode算法问题的评估,我们发现ChatGPT生成的代码在难度级别、通过率、可执行性、正确性以及时间和空间性能等方面与人类编写的代码有所不同。这为进一步研究提供了见解和启示。
P:14 06-25 神经符号逆向规划引擎(NIPE):从语言输入建模概率社交推理
-
Title: The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling Probabilistic Social Inferences from Linguistic Inputs
-
Authors: Lance Ying, Katherine M. Collins, Megan Wei, Cedegao E. Zhang, Tan Zhi-Xuan, Adrian Weller, Joshua B. Tenenbaum, Lionel Wong
-
Affiliation:
Lance Ying - Harvard University, Cambridge, USA -
Keywords: neuro-symbolic model, goal inference, language, Bayesian inverse planning, large language model (LLM)
-
Paper: Link Github: None
-
Summary:
-
(1): This paper focuses on understanding how language can inform social reasoning, specifically in the context of inverse planning and goal inference problems.
-
(2): Previous methods have faced challenges in modeling social reasoning tasks due to the complexity and interrelated nature of these tasks. The approach proposed in this paper combines a large language model (LLM) with a Bayesian inverse planning engine to address these challenges.
-
(3): The proposed Neuro-Symbolic Inverse Planning Engine (NIPE) leverages LLMs to translate language into program expressions that condition a probabilistic generative model over agents and environments. Bayesian inverse planning is then used to perform goal inference over this symbolic representation. The innovation lies in the integration of language understanding and probabilistic planning.
-
(4): The methods in this paper are evaluated through a human experiment on a linguistic goal inference task. The results show that the proposed model closely matches human response patterns and outperforms LLM baselines in predicting human judgments. This demonstrates the effectiveness of the model in capturing social reasoning from linguistic inputs.
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文提出了一种神经符号逆向规划引擎(NIPE),用于从语言输入中建模概率社交推理,实现目标推断。
b. 方法的详细步骤:
(1). 规划引擎(NIPE):引入了神经符号逆向规划引擎(NIPE),该引擎基于贝叶斯逆向规划的原则,通过对语言信息进行条件建模,实现对代理人情景的目标推断。该引擎将语言描述转化为代码表示,并使用贝叶斯逆向规划进行目标推断。
(2). 语言到代码翻译:使用大型语言模型(LLM)将语言描述翻译为代码表示。该翻译方法利用LLM在语言和代码上的联合训练,通过少量示例将语言翻译为代码和符号表示。为了保证翻译的准确性和可执行性,对翻译结果进行了多个语法可解析性测试。
(3). 基于PDDL的生成模型:将不同类型的信息转化为不同类型的代码,构建一个统一的生成模型。其中,空间环境的条件通过LLM翻译为描述环境布局的代码,领域规则的条件通过PDDL中的操作符定义进行描述。通过这些条件,构建了一个完整的PDDL规划领域模型。
(4). 从语言中推断代理人的子目标和动作:将描述代理人动作的语句转化为对代理人模型的条件。根据语句的不同,将其视为对子目标或低级动作序列的条件。
(5). 实验验证:设计并进行了人类实验,用于测试模型的性能。结果表明,该模型能够准确地推断人类的目标,并比仅使用LLM的模型更好地预测人类的判断。
(6). 模型优势:通过将神经网络和符号推理方法相结合,该模型能够处理复杂的语言情景,同时能够对世界本身的抽象信息进行条件建模,如物体位置和钥匙开启门的信息。
(7). 模型应用:该模型可以应用于语言驱动的社交推理任务,为人类社交推理提供了一种概率建模的方法。
(8). 模型局限性:本文使用的LLM模型为GPT-3.5,未来的研究可以探索更小和更受限制的语言到代码模型在该框架中的应用。
(9). 结论:本文提出的神经符号逆向规划引擎(NIPE)能够从语言输入中进行目标推断,并在实验中展现出与人类判断相匹配的性能。该模型为语言驱动的社交推理任务提供了一种有效的建模方法。
实验设置:
- 实验设置:
本文的实验设置主要包括以下几个方面:
(1). 模型介绍:介绍了神经符号逆向规划引擎(NIPE)模型,该模型由大型语言模型(LLM)和贝叶斯逆向规划引擎组成。LLM用于将语言描述转化为代码表示,而贝叶斯逆向规划引擎用于进行目标推断。
(2). 语言到代码翻译:使用LLM将语言翻译为代码表示,通过少量示例的语言和代码配对进行训练和条件生成。
(3). 概率生成模型构建:从语言中构建代理和环境的概率生成模型,通过将语言转化为概率程序表达式来构建和条件生成综合的概率模型。
(4). 目标推断:使用贝叶斯逆向规划算法进行目标推断,通过计算每个可能目标与观察到的动作序列的联合概率来得到后验分布。
以上是本文的实验设置内容。
实验结果:
实验结果和分析:
本文通过进行人类实验来测试他们提出的模型。实验结果表明,他们的模型能够与人类的反应模式相匹配,并且比仅使用大型语言模型(LLM)更好地预测人类的判断。
具体实验结果如下:
- 通过对语言到代码的翻译,他们的模型能够将语言描述转化为代码表示,并构建一个基于代理和环境的概率生成模型。
- 通过贝叶斯逆向规划算法,他们的模型能够从代理的动作和初始状态中推断出目标的后验分布。
- 实验结果表明,他们的模型能够准确地推断出人类的目标,并且与人类的反应模式相匹配。
- 与仅使用大型语言模型相比,他们的模型在预测人类判断方面表现更好。
总结起来,本文提出的神经符号逆向规划引擎(NIPE)模型通过语言输入进行目标推断,并在人类实验中取得了良好的结果。该模型能够准确地推断人类的目标,并且比仅使用大型语言模型更好地预测人类的判断。
P:15 06-25 ROBUT: 人工注释的对抗性扰动下表格问答鲁棒性的系统研究
-
Title: ROBUT: A Systematic Study of Table QA Robustness Against Human-Annotated Adversarial Perturbations
-
论文简介: 本文系统研究了表格问答(Table QA)模型对任务特定扰动的鲁棒性,例如替换关键问题实体或打乱表格列顺序。为了系统地研究Table QA模型的鲁棒性,我们提出了一个名为ROBUT的基准,该基准建立在现有的Table QA数据集(WTQ、WIKISQL-WEAK和SQA)基础上,并包含人工注释的对抗性扰动,涵盖表头、表内容和问题。实验结果表明,目前最先进的Table QA模型和大型语言模型(如GPT-3)在这些对抗性数据集上表现不佳。我们提出使用大型语言模型生成对抗性示例来增强训练,从而显著提高Table QA模型的鲁棒性。
-
Authors: Yilun Zhao, Chen Zhao, Linyong Nan, Zhenting Qi, Wenlin Zhang, Boyu Mi, Xiangru Tang, Dragomir Radev
-
Affiliation:
Yale University -
Keywords: Table QA, robustness, adversarial perturbations, benchmark, large language models
-
Paper: Link to the paper
Github: Link to the code -
论文总结:
-
(1): 本文研究了表格问答模型在任务特定扰动下的鲁棒性背景。
-
(2): 过去的方法存在问题,现有模型容易受到对抗性扰动的影响。本文的方法在激励方面表现良好。
-
(3): 本文提出了一种研究方法,构建了一个用于评估Table QA鲁棒性的基准,同时使用大型语言模型生成对抗性示例来增强模型训练。这一方法具有创新性和贡献性。
-
(4): 本文在ROBUT基准上评估了最先进的Table QA模型和大型语言模型,发现这些模型在对抗性数据集上性能显著下降。大型语言模型在鲁棒性方面表现更好,例如GPT-3在单词级和句子级问题扰动上优于其他Table QA模型。这些结果支持了本文的目标和创新贡献。
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文提出了一个名为ROBUT的基准测试集,用于系统研究表格问答(Table QA)模型对任务特定的对抗扰动的鲁棒性,并通过使用大型语言模型生成对抗样本来增强训练,从而显著提高了表格问答模型的鲁棒性。
b. 方法的详细步骤:
(1). 设计ROBUT基准测试集:基于三个主流的表格问答数据集(WTQ、WIKISQL-WEAK和SQA),通过人工注释的方式,构建了包含表头、表内容和问题方面的对抗扰动的ROBUT基准测试集。为了确保注释质量,设计了三个注释原则:诊断全面性、短语学正确性和丰富性、语义关联性。
(2). 构建对抗样本:利用大型语言模型(如GPT-3)生成对抗样本,以增强训练。通过使用人工注释的对抗扰动,显著提高了表格问答模型的鲁棒性。
以上是本文的方法详细介绍。
实验设置:
- 实验设置(Experimental setting):
本文的实验设置主要是在作者构建的基准测试集ROBUT上评估现有的表格问答(Table QA)模型。ROBUT基于现有的表格问答数据集(WTQ、WIKISQL-WEAK和SQA),并包含了人工注释的对抗扰动,包括表头、表内容和问题方面的扰动。作者评估了目前最先进的表格问答模型以及少样本学习的大型语言模型(如GPT-3)在这些对抗集上的表现。此外,作者还提出使用大型语言模型生成对抗样本来增强训练,从而显著提高表格问答模型的鲁棒性。
实验结果:
实验结果和分析:
本文通过对构建的基准测试集ROBUT对现有的Table QA模型进行评估。实验结果表明,无论是最先进的Table QA模型还是大型语言模型(如GPT-3)在对抗性数据集上都表现不佳。作者提出使用大型语言模型生成对抗性样本来增强训练,从而显著提高Table QA模型的鲁棒性。
具体实验结果如下:
(1) 在ROBUT基准测试集上,现有的Table QA模型和大型语言模型在对抗性设置下表现不佳。
(2) 作者提出的使用大型语言模型生成对抗性样本的方法能够显著提高Table QA模型的鲁棒性。
总结以上实验结果,本文通过对现有Table QA模型在对抗性数据集上的评估,发现它们在面对任务特定的扰动时表现不佳。作者提出了一种使用大型语言模型生成对抗性样本的方法,通过增强训练来提高Table QA模型的鲁棒性。这些实验结果对于改进Table QA模型的鲁棒性具有重要的指导意义。
P:16 06-25 针对低资源语言的弱监督场景文本生成
-
- Title: Weakly Supervised Scene Text Generation for Low-resource Languages
-
论文简介: 本文提出了一种针对低资源语言的弱监督场景文本生成方法,利用识别级别的标注来生成大规模的场景文本图像数据集。同时,引入了跨语言生成方案,以减少对低资源语言中标注数据的依赖。
-
- Authors: Yangchen Xie, Xinyuan Chen, Hongjian Zhan, Palaiahankote Shivakumara, Bing Yin, Cong Liu, Yue Lu
-
- Affiliation:
- 第一作者: School of Communication and Electronic Engineering, East China Normal University, Shanghai, 200241, China
-
- Keywords: scene text generation, style transfer, low-resource languages
-
- Paper: Link Github: None
-
- 论文总结:
- (1): 本文的研究背景是低资源语言中的场景文本生成问题。
- (2): 过去的方法通常依赖大量配对数据,而这对于低资源语言来说很难获取。本文的方法利用识别级别的标注作为弱监督,通过跨语言生成生成大量具有多样化背景和字体风格的场景文本图像。这种方法能够解耦场景文本图像的内容和风格特征,并通过集成注意力模块来保留生成图像的完整内容结构。
- (3): 本文提出了一种弱监督的场景文本生成方法,利用识别级别的标注来生成低资源语言的大规模场景文本数据集。通过集成注意力模块,将内容特征和生成特征之间的全局和局部关系进行利用。此外,引入预训练的字体分类器来处理不同语言之间的风格差异。
- (4): 本文的方法在场景文本识别模型上进行了评估,实验证明生成的场景文本显著提高了识别准确率,并在与其他生成方法相结合时实现了更高的准确性。
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文提出了一种利用识别级别标注的弱监督生成方法,用于低资源语言的场景文本生成,并引入了跨语言生成方案以减少对标注数据的依赖。
b. 方法的详细步骤:
(1). 设计了生成框架,利用综合注意力来利用内容特征和生成特征之间的全局和局部关系。
(2). 提出了一种利用识别级别标签作为弱监督的场景文本生成方法。生成模型由内容编码器、风格编码器、解码器和综合注意力模块组成。
(3). 利用从场景图像中裁剪的风格图像作为弱监督,使用标准字体在灰色背景上渲染,生成带有给定内容字符串的图像。
(4). 提取基于内容编码器和风格编码器的潜在风格和内容表示。通过多个全连接层将风格向量映射到AdaIN归一化系数。
(5). 生成器通过混合这两种表示来生成编辑后的场景文本图像特征,以生成具有完整内容结构的图像。
(6). 引入了经过合成字体预训练的字体分类器和鉴别器,用于区分场景文本图像和生成图像之间的风格和真实性。
(7). 弱监督方法降低了低资源语言场景文本生成的标注成本,但生成图像的内容容易缺失一些部分。
(8). 设计了综合注意力模块,以确保在全局和局部层面上生成的内容的补充。全局注意力通过可变形卷积建模学习点对点的变形,并通过学习全局稀疏权重对源内容特征进行变形。局部注意力通过学习局部密集注意权重来学习源内容特征和目标生成特征之间的局部笔画映射。
(9). 对于高级特征,全局注意力首先用于帮助变形内容特征。然后,采用局部注意力模块来学习内容图像和生成图像之间的局部空间映射,如笔画和部首分解。
(10). 对于低级特征,采用密集连接的全局注意力模块来变形特征。全局注意力通过可学习的偏移量调整关键元素的采样位置,以捕捉全局空间关系。
(11). 局部注意力模块与传统的transformer注意力不同,它预测相对于其邻居特征的位置的权重,而不是整个输入特征。通过提取补丁并使用全连接网络估计权重,学习局部空间注意模块的输出。
(12). 综合注意力模块通过学习全局和局部关系,确保生成的内容在全局和局部层面上与源内容相补充。
(13). 通过生成网络生成图像后,引入经过合成字体预训练的字体分类器和鉴别器,用于区分场景文本图像和生成图像之间的风格和真实性。
(14). 通过提出的方法,生成了一个用于低资源语言的大规模场景文本数据集,用于训练场景文本识别器,显著提高了识别器的性能。
(15). 本文提出的方法在低资源语言的场景文本生成中降低了标注成本,并通过综合注意力模块确保了生成内容的补充。
实验设置:
- 实验设置(Experimental setting):
本文针对韩语和哈萨克语的场景文本识别任务评估了提出的模型。首先描述了实现细节,然后介绍了数据集。接下来展示了实验结果,验证了模型的优势。卷积层的权重采用He初始化[13],偏置设置为零,线性层的权重从均值为0、标准差为0.01的高斯分布中采样。使用Adam优化器进行优化,其中style编码器的参数为1=0.9和2=0.99,内容编码器和解码器使用RMSprop优化器进行优化,参数为=0.99。模型训练200个epochs,学习率为0.0001,权重衰减为0.0001。使用带有R1正则化的hinge对抗损失[44],其中=10。根据经验设置了不同超参数的权重,如1=1,2=250,3=1,=1,=10,1=1和1=0.1。生成模型的批量大小设置为16,将文本图像的高度调整为64,并保持相同的宽高比。在训练过程中,随机选择批量数据并将这些图像调整为平均宽度,在测试过程中,输入可变宽度的图像以获得所需的结果。综合注意力中,ℎ ℎ和ℎ ℎ从第二个下采样和倒数第二个上采样层提取,ℎ和ℎ从第一个下采样和最后一个上采样层提取。表1显示了生成网络的详细信息,包括编码器和解码器组件。BN、IN、AdaIN分别表示批量归一化、实例归一化和自适应实例归一化。FC表示全连接层。为了评估我们的方法,我们采用了三种识别方法。批量大小为256,除非另有说明,否则这些方法都没有使用数据增强进行训练。为了评估我们的模型在低资源语言中的场景文本识别能力,我们选择哈萨克语(84个字符)和韩语(2180个字符)作为低资源语言,英语和中文作为高资源语言来帮助训练我们的模型。对于哈萨克语,我们收集了包含22,182个哈萨克语图像和81,900个英语图像的数据集用于训练,以及4571个用于测试的哈萨克语图像。对于韩语,训练集包含总共16,279个韩语图像和113,491个中文图像,测试集包含从ICDAR2019-MLT [28]中裁剪的4644个韩语图像。在我们的实验中,所有的训练和测试图像都是从真实场景图像中裁剪的盒子图像。此外,字体分类器的训练集是由SynthText生成的,其中使用了284种中文字体和800种英文字体。
(1). 实验设置(Experimental setting):
- 评估了提出的模型在韩语和哈萨克语的场景文本识别任务上的效果。
- 描述了模型的实现细节,包括权重初始化、优化器选择和超参数设置。
- 介绍了用于训练和测试的数据集,包括低资源语言和高资源语言。
- 使用了三种识别方法进行评估,包括评估指标和数据增强的使用情况。
- 使用SynthText生成了字体分类器的训练集。
(2). 数据集(Dataset):
- 韩语数据集包含16,279个韩语图像和113,491个中文图像,测试集包含4644个韩语图像。
- 哈萨克语数据集包含22,182个哈萨克语图像和81,900个英语图像,测试集包含4571个哈萨克语图像。
- 所有的训练和测试图像都是从真实场景图像中裁剪的盒子图像。
- 字体分类器的训练集使用了284种中文字体和800种英文字体。
(3). 模型训练(Model training):
- 使用Adam优化器进行模型训练,其中style编码器的参数为1=0.9和2=0.99,内容编码器和解码器使用RMSprop优化器进行优化,参数为=0.99。
- 模型训练200个epochs,学习率为0.0001,权重衰减为0.0001。
- 使用带有R1正则化的hinge对抗损失进行训练,其中=10。
- 设置了不同超参数的权重,如1=1,2=250,3=1,=1,=10,1=1和1=0.1。
(4). 生成模型(Generation model):
- 生成模型的批量大小设置为16,将文本图像的高度调整为64,并保持相同的宽高比。
- 在训练过程中,随机选择批量数据并将这些图像调整为平均宽度,在测试过程中,输入可变宽度的图像以获得所需的结果。
- 综合注意力中,ℎ ℎ和ℎ ℎ从第二个下采样和倒数第二个上采样层提取,ℎ和ℎ从第一个下采样和最后一个上采样层提取。
(5). 评估方法(Evaluation methods):
- 使用三种识别方法进行评估,批量大小为256,没有使用数据增强进行训练。
- 评估指标包括准确率和标准化编辑距离,而不是常用于图像生成任务的FID分数。
- 标准化编辑距离的计算公式为:= 1 − ( ,̂),其中(∶)表示Levenshtein距离,̂表示预测的文本行,表示对应的真实文本行。
实验结果:
实验结果和分析:
本文提出了一种用于低资源语言的弱监督场景文本生成方法,并引入了跨语言生成方案,以减少对标注数据的依赖。作者设计了生成框架,利用集成注意力来利用内容特征和生成特征之间的全局和局部关系。通过提出的方法,作者生成了一个大规模的低资源语言场景文本数据集,用于训练场景文本识别器。实验结果表明,该方法显著提高了识别器的性能。
作者在实验中评估了他们提出的模型在韩语和哈萨克语的场景文本识别任务上的表现。实验结果验证了该模型的优势。实验中使用了Adam优化器进行训练,学习率为0.0001,权重衰减为0.0001。生成模型的批量大小为16,文本图像高度调整为64,并保持相同的宽高比。实验中还使用了集成注意力,从第二个下采样和倒数第二个上采样层提取特征。实验中使用了三种识别方法进行评估,其中批量大小为256。实验中选择了哈萨克语和韩语作为低资源语言,英语和中文作为高资源语言。实验结果表明,通过使用合成数据训练识别模型,可以提高模型的准确性。
综上所述,本文提出的弱监督场景文本生成方法在低资源语言的场景文本识别任务中取得了显著的性能提升。
P:17 06-25 利用大型语言模型改革网络威胁检测
-
Title: Revolutionizing Cyber Threat Detection with Large Language Models
-
论文简介: 本文介绍了一种基于大型语言模型(LLMs)的网络威胁检测方法,通过引入SecurityBERT和FalconLLM两个关键元素构建了SecurityLLM模型。实验结果表明,该模型在网络威胁检测中能够识别14种不同类型的攻击,整体准确率达到98%。
-
Authors: Mohamed Amine Ferrag, Mthandazo Ndhlovu, Norbert Tihanyi, Lucas C. Cordeiro, Merouane Debbah, and Thierry Lestable
-
Affiliation: Technology Innovation Institute, 9639 Masdar City, Abu Dhabi, UAE
-
Keywords: Security, Attacks Detection, Generative AI, FalconLLM, BERT, Large Language Models
-
Paper: Link to the paper Github: None
-
论文总结:
-
(1): 本文的研究背景是网络威胁日益增多,需要先进有效的检测机制。
-
(2): 过去的方法存在一些问题,如传统的机器学习和深度学习方法在网络威胁检测中的性能不尽如人意。本文的方法通过引入大型语言模型,克服了这些问题,并取得了出色的性能。
-
(3): 本文提出了一种新颖的网络威胁检测方法,利用LLMs模型对网络流量数据进行文本表示,并结合FalconLLM进行事件响应和恢复。这种方法在网络威胁检测领域具有创新性和贡献。
-
(4): 本文的方法在一个收集的网络安全数据集上进行了实验分析,结果表明SecurityLLM模型能够识别14种不同类型的攻击,整体准确率达到98%。这一性能支持了他们的目标,并展示了创新和贡献。
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文介绍了一种基于大型语言模型的网络威胁检测方法,其中包括两个关键元素:SecurityBERT和FalconLLM。
b. 方法的详细步骤:
(1). SecurityBERT模型
- 收集网络安全数据:从各种开源数据库和存储库中收集网络安全数据,如CVE数据库、OWASP等。
- 提取相关特征:从网络流量日志中提取一定时间窗口内的相关特征,并将其以结构化格式保存。
- 文本表示:将数据转化为文本表示,通过将列名与对应的值进行拼接和哈希处理,生成一个固定长度的序列,称为Fixed-Length Language Encoding (FLLE)。
- 字节级BPE (BBPE) 分词器:采用ByteLevelBPETokenizer对文本进行分词,将网络流量数据的语言表示拆分为子词单元,以便于BERT的处理。
- SecurityBERT嵌入:使用BERT架构对文本进行编码,通过多层编码器层实现自注意力机制和位置前馈神经网络,生成上下文表示的嵌入向量。
(2). FalconLLM模型
- 安全策略设计:针对上传攻击和端口扫描攻击,设计相应的安全策略,如定期更新软件和安全补丁、限制未使用的端口访问、监控网络活动等。
- 异常检测:通过监控网络活动,检测并识别可疑的上传文件和端口扫描行为。
- 安全响应和恢复:对检测到的安全威胁进行响应和恢复,采取相应的措施进行阻止和修复。
综上所述,本文提出了一种基于大型语言模型的网络威胁检测方法,通过SecurityBERT模型进行网络威胁检测,结合FalconLLM模型进行安全响应和恢复,实现了对网络威胁的准确识别和高效处理。
-
方法详细介绍(Method detailed introduction):
本文提出了一种基于大型语言模型的网络威胁检测方法,称为SecurityLLM。该方法由两个关键组成部分构成:SecurityBERT和FalconLLM。SecurityBERT作为网络威胁检测机制,利用预训练的BERT模型对文本进行编码和分类。FalconLLM作为事件响应和恢复系统,利用大型语言模型对网络威胁进行分析和提供解决方案。SecurityLLM通过结合这两个组件,实现了对网络威胁的准确检测和快速响应。 -
实验设置(Experimental setting):
在实验中,研究人员收集了来自各种开源数据库和存储库的网络安全数据,包括常见漏洞和威胁数据库。他们还使用了一个公开可用的物联网和工业物联网连接协议的数据集,其中包含14种不同类型的攻击。实验使用了661,767,168个标记的训练数据,并将其分为训练数据和评估数据。训练数据用于训练SecurityLLM模型,评估数据用于评估模型的性能。 -
实验结果和分析(Experimental results and analysis):
SecurityLLM模型在各种网络攻击类别上表现出色。对于“正常”类和大多数DDoS攻击类型,包括“DDoS_UDP”,“DDoS_ICMP”和“DDoS_TCP”,模型在精确度、召回率和F1分数方面均达到了完美的得分。对于其他攻击类型,如“SQL注入”,“密码攻击”,“DDoS_HTTP”,“上传攻击”和“后门攻击”,模型也取得了较高的性能。总体而言,SecurityLLM模型在14种不同类型的攻击检测中实现了98%的准确率。 -
结论(Conclusion):
本文提出的SecurityLLM模型通过结合SecurityBERT和FalconLLM,实现了对网络威胁的准确检测和快速响应。实验结果表明,SecurityLLM模型在网络威胁检测方面具有出色的性能,超过了传统的机器学习和深度学习方法。该模型在实际应用中具有广泛的潜力,可以帮助提高网络安全性并减少潜在的损害。未来的研究方向可以进一步探索和优化SecurityLLM模型,以应对不断演变的网络威胁。
P:18 06-25 通过数据库模式修剪改进自注意力的多语言SQL翻译器
-
Title: A Multilingual Translator to SQL with Database Schema Pruning to Improve Self-Attention
-
Brief Introduction: This paper presents techniques to handle long text sequences in transformers for natural language to SQL translation. The proposed approach includes database schema pruning and a multilingual approach using the mT5-large model. The results show improved accuracy in the Spider dataset.
-
Authors: Marcelo Archanjo Jose, Fabio Gagliardi Cozman
-
Affiliation:
Marcelo Archanjo Jose: Institute of Advanced Studies, University of São Paulo, Brazil -
Keywords: Semantic parsing, SQL generation, deep learning, neural network, natural language process, text-to-SQL, databases, transformers self-attention, transformers, Spider dataset
-
Summary:
- (1): The research background of this paper is the limitation of transformers in handling long text sequences, which affects the translation from natural language to SQL queries.
- (2): Previous methods for NL2SQL translation have limitations in dealing with large database schemas and long input sequences. The proposed approach addresses these issues by using database schema pruning and a multilingual approach. The motivation for this approach is the benefits of schema pruning and the improved results observed in a previous work using a combination of English and Portuguese languages.
- (3): The research methodology proposed in this paper includes a training process with database schema pruning and the use of the mT5-large model fine-tuned with a data augmented Spider dataset in four languages simultaneously. The innovation lies in the combination of schema pruning and multilingual training, which allows long text sequences to be handled by transformers.
- (4): The methods in this paper are evaluated on the Spider dataset, and the results show an increase in the exact set match accuracy from 0.718 to 0.736 in the validation dataset. The performance supports the goals of improving the translation accuracy in NL2SQL tasks, and the innovation lies in the combination of schema pruning and multilingual training.
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本文提出了一种改进自注意力机制的方法,通过数据库模式修剪和多语言训练来处理长文本序列,以提高从自然语言到SQL查询的翻译准确性。
b. 方法的详细步骤:
(1). 首先,复现了RAT-SQL+GAP的结果作为基准,使用BART-large模型进行微调,并在英语的训练和验证数据集上进行训练。通过实验验证了基准模型的准确性。
(2). 接着,使用mT5模型在英语、葡萄牙语、西班牙语和法语四种语言的Spider数据集上进行多语言训练。通过增加数据的方式,提高了模型的准确性。
(3). 进一步研究了数据库模式修剪的影响,将mT5模型分别使用标准的四语言Spider数据集和修剪后的四语言Spider数据集进行训练。结果表明,修剪后的数据集可以提高模型的准确性。
(4). 尝试增加自注意力机制中的最大标记数,以包含所有文本序列。然而,由于内存消耗的限制,需要减小批量大小并增加训练步数。结果表明,增加标记数并不一定能提高模型的准确性。
(5). 最后,通过对问题和数据库模式进行分析,提出了在推理时进行数据库模式修剪的方法,以适应512个标记的限制。
(6). 综上所述,本文提出的方法通过数据库模式修剪和多语言训练,改进了自注意力机制,提高了从自然语言到SQL查询的翻译准确性。
实验设置:
- 实验设置(Experimental setting):
本文的实验设置主要包括以下几个方面:
(1). 使用mT5-large模型进行训练:作者使用mT5-large模型作为基础模型,并对其进行了微调。训练过程中使用了四种语言(英语、葡萄牙语、西班牙语和法语)的数据增强的Spider数据集。
(2). 数据库架构修剪:为了解决长文本序列对transformers模型的挑战,作者提出了数据库架构修剪的技术。通过删除对查询无用的表和列名,可以减少输入序列的长度,从而提高模型的性能。
(3). 不同训练步数的比较:作者对模型进行了不同步数的训练,并比较了它们在验证数据集上的性能。结果表明,增加训练步数可以提高模型的性能。
(4). 增加自注意力机制的最大标记数:为了使用完整的训练数据集,作者将自注意力机制的最大标记数从512增加到2048。然而,由于内存消耗的限制,作者不得不将批量大小减小到1,并增加训练步数以获得良好的收敛性。
(5). 数据集的影响:作者比较了使用标准数据集和修剪后的数据集进行训练的结果。结果表明,修剪后的数据集可以提高模型的性能。
(6). 模型推理时的架构修剪:作者讨论了在推理时进行架构修剪的可能性,并提出了一种基于查询和数据库架构的方法来选择未使用的表和列。
实验结果:
实验结果和分析:
本文通过实验研究了使用数据库模式修剪来改善自注意力机制的多语言SQL翻译器。实验结果表明,使用FIT quad数据库进行训练的mT5模型在验证数据集上的精确匹配准确率从0.718提高到了0.736。此外,将transformer自注意机制中的最大标记数从512增加到2048并不能获得好的结果,准确率为0.697,比使用标准quad训练数据集的准确率0.718还要低。实验还发现,使用FIT quad训练数据集的mT5模型在不同难度级别的问题/查询示例上表现出更好的性能。此外,实验还探讨了在推理时进行模式修剪的可行性,并提出了一种通过分析问题和数据库模式来选择未使用的表和列的方法。
实验结果和分析:
(1) 使用FIT quad数据库进行训练的mT5模型在验证数据集上的精确匹配准确率从0.718提高到了0.736。
(2) 将transformer自注意机制中的最大标记数从512增加到2048并不能获得好的结果,准确率为0.697,比使用标准quad训练数据集的准确率0.718还要低。
(3) 使用FIT quad训练数据集的mT5模型在不同难度级别的问题/查询示例上表现出更好的性能。
(4) 实验探讨了在推理时进行模式修剪的可行性,并提出了一种通过分析问题和数据库模式来选择未使用的表和列的方法。
P:19 06-25 利用图神经网络和GPT模型辅助学习结构-性能关系:稀土掺杂磷光体应用
-
Title: GPT-assisted learning of structure-property relationships by graph neural networks: Application to rare-earth doped phosphors
-
论文简介: 本文介绍了一种利用图神经网络和GPT模型相结合的方法,用于研究稀土掺杂磷光体的结构-性能关系。
-
Authors: Xiang Zhang, Zichun Zhou, Chen Ming, and Yi-Yang Sun
-
Affiliation:
中国科学院上海硅酸盐研究所高性能陶瓷和超微结构国家重点实验室 -
Keywords: machine learning, graph neural networks, GPT, rare-earth doped phosphors
-
Paper: Link to the paper Github: None
-
论文总结:
-
(1): 本文的研究背景是稀土掺杂磷光体在固态照明中的应用。
-
(2): 过去的方法主要是基于经验描述符和特定材料性质数据库,存在依赖性和限制性。本文的方法通过结合GPT模型和CGCNN模型,实现了直接从材料结构到性能的映射,避免了使用经验描述符的问题。
-
(3): 本文提出了一种数据处理流程,利用GPT模型从科学文献中提取稀土掺杂磷光体的化学公式和发射波长数据,并使用CGCNN模型进行训练和预测。同时,还探索了迁移学习的可能性,将CGCNN模型从预测带隙扩展到预测磷光体的发射波长。
-
(4): 本文的方法在264个Eu2+掺杂磷光体的数据集上进行了训练,测试R2达到了0.77。该模型还在超过40,000种无机材料上进行了发射波长的预测。研究结果表明,该方法不仅需要较少的人工监督和领域知识,而且在其他材料性质的预测上具有普适性和可扩展性。
-
方法详细介绍(Method detailed introduction):
本研究采用了GPT-4和CGCNN相结合的数据流程。首先,使用GPT-4从科学论文中提取Eu2±掺杂磷光体的信息,包括化学组成和发射波长。然后,使用CGCNN模型对提取的数据集进行训练,以预测发射波长。训练过程中,使用了ICSD数据库中的晶体结构作为输入,并将发射波长作为标签进行监督回归。最终,得到了一个在测试集上具有0.77的R2值和0.20 eV的MAE值的模型。 -
实验设置(Experimental setting):
在实验设置中,我们使用了274篇关于Eu2±掺杂磷光体的论文作为数据集。其中包括11篇综述和263篇非综述论文。我们将这些论文转换为文本格式,并使用GPT-4解析文本,提取化学组成和发射波长的信息。然后,我们使用CGCNN模型对提取的数据进行训练,以预测发射波长。训练集、验证集和测试集的划分比例分别为60%、20%和20%。 -
实验结果和分析(Experimental results and analysis):
CGCNN模型在测试集上表现出很好的预测能力,具有0.77的R2值和0.20 eV的MAE值。使用该模型对ICSD数据库中的超过40,000种无机化合物进行发射波长的预测,得到了5289个可信的预测结果。通过使用UMAP方法对化学组成进行降维和可视化,发现具有相似化学组成的材料往往具有相似的发射波长。此外,我们还探索了迁移学习的概念,将预训练的CGCNN模型从预测带隙转移到预测磷光体发射能量,发现这种迁移学习可以提高模型的预测能力。
综上所述,本研究成功地利用GPT-4和CGCNN模型开发了一种数据流程,用于预测Eu2±掺杂磷光体的发射波长。该方法在实验设置中表现出良好的性能,并且可以推广到其他材料性质的预测中。
P:20 06-25 揭示情感的潜力:大型语言模型能否预测中国股票价格走势?
-
Title: Unveiling the Potential of Sentiment: Can Large Language Models Predict Chinese Stock Price Movements?
-
论文简介: 本研究旨在评估大型语言模型(LLMs)在提取中文新闻文本情感因素方面的效果,并探讨其在中国股票市场中的应用潜力。
-
Authors: Haohan Zhang, Fengrui Hua, Chengjin Xu, Jian Guo, Hao Kong, Ruiting Zuo
-
Affiliation: International Digital Economy Academy (IDEA) (国际数字经济学院)
-
Keywords: Large Language Models, sentiment analysis, Chinese stock market, quantitative trading strategies
-
Paper: Link to the paper Github: None
-
论文总结:
-
(1): 本文的研究背景是大量的新闻文章和专栏每天都在产生,特别是与上市公司相关的文章。因此,研究人员开始探索使用大型语言模型(LLMs)进行情感分析和处理这些新闻文本的可行性。
-
(2): 过去的方法已经证明了LLMs在提取情感因素方面的有效性,但在中文环境下仍存在一些问题。首先,主流的LLMs主要是在英文语料库上进行训练的,因此将情感挖掘技术从英文文本转移到中文文本的可行性仍然存在不确定性。其次,由于构建股票交易模拟回测的参数选择和使用不同的原始新闻数据集,导致了研究结果的差异性。
-
(3): 本文提出了一种创新的方法,将情感提取与量化策略的实际回测相结合。通过使用一套全面的基准和回测实验流程,直接评估LLMs在提取情感因素方面的效果,并使用超额收益、风险调整收益和胜率等可量化指标进行评估。这为评估和比较不同LLMs在中文金融新闻文本情感提取任务中的性能提供了一个强大的框架。
-
(4): 本文的方法在大规模中文新闻摘要文本上进行情感因素提取,并构建量化交易策略进行回测。通过与基准的对比分析,研究人员发现不同LLMs在提取情感因素方面的性能存在差异。这些方法在实现其目标和创新方面取得了良好的性能,为LLMs在中文金融文本情感分析中的应用提供了有力支持。
方法部分:
方法详细介绍(Method detailed introduction):
a. 一句话概览:本研究旨在评估大型语言模型(LLMs)在从中国金融文本中提取情感因素方面的效果,并建立了一个严格的基准和标准化的回测框架,以客观评估不同类型LLMs在情感因素提取中的效能。
b. 方法的详细步骤:
(1). 首先,选择了三个不同的模型作为基准:生成型LLM(Chat-GPT)、中文语言特定预训练LLM(Erlangshen-RoBERTa)和金融领域特定微调LLM分类器(Chinese FinBERT)。
(2). 将这些模型直接应用于从大量中国新闻摘要文本中提取情感因素的任务,并构建量化交易策略。
(3). 使用建立的基准对这些策略进行回测,并评估它们的表现。
(4). 通过比较分析,探讨提高LLM在情感因素提取中性能的最重要因素。
(5). 建立了标准化的回测实验流程,确保对LLMs的评估具有客观性。
(6). 在回测中,采用统一的设置和参数,如每日调整投资组合、只使用市场开盘前生成或获取的新闻、根据情感因素的排名买入或卖出股票等。
(7). 为了模拟真实交易环境,考虑了滑点和延迟,并使用成交量加权平均价格(VWAP)来计算交易价格。
(8). 考虑了交易费用,包括佣金和印花税。
(9). 使用CSI 300指数作为基准计算超额收益。
以上是本文的方法详细步骤,通过这些步骤,评估了LLMs在从中国金融文本中提取情感因素方面的效果,并建立了一个严格的基准和标准化的回测框架,为进一步研究提供了参考。
实验设置:
- 实验设置(Experimental setting):
本文旨在提供一个全面且严格的基准以及一个标准化的回测实验框架,以客观评估各种类型的大型语言模型(LLMs)在从中国新闻文本数据中提取情感因素方面的有效性,以及在构建量化交易策略方面的应用。为了确保按照我们的基准进行公正评估,我们要求量化交易策略遵循统一的设置和参数。以下是我们实验中所有交易策略遵循的标准设置:
- 每天只在市场开盘时(北京时间上午9:30)调整投资组合。
- 只使用市场开盘前生成或获取的新闻。这样提取的情感因素可以直接在交易时使用。
- 通过购买情感因素排名最高的股票和卖出投资组合中排名最低的股票来调整投资组合。每天最多买入或卖出500只股票。
- 投资组合的最大换手率为1.0,意味着我们允许所有之前持有的股票被完全替换为新股票。尽管在回测中很少发生这种情况。
- 为了考虑到实际交易中常见的滑点和延迟,我们选择在回测中不使用直接的市场开盘价。相反,我们采用更现实的方法,利用北京时间上午9:00至9:05之间的成交量加权平均价格(VWAP)。这个VWAP是通过将这个特定的五分钟内发生的所有交易的价值相加,并将总和除以该时间段内的总成交量来计算的。
- 我们通过对交易金额的0.15%收取交易费用来避免对模拟回报过于乐观。其中包括证券经纪公司收取的0.05%佣金和支付给证券交易所的0.1%印花税费用。实际上,目前中国的证券经纪公司很少收取超过0.03%的佣金,印花税费用也只在卖出交易时收取,而不是所有交易。因此,0.15%的交易金额模拟了比实际观察到的交易环境更严格的交易环境。
- 在计算超额回报时,我们使用CSI 300指数作为基准。在运行完回测后,我们收集所有基于三个情感因素构建的投资组合的结果和表现,这些结果包括我们的基准的一系列指标。我们将这些指标分为两部分,并在表2中展示了年度超额回报、年度净资产回报、胜率和夏普比率的结果,这些是主要的性能指标。我们将平均每天持有的股票数量和换手率放入表3中,这些是提供有关交易策略投资组合调整特征的补充指标。我们还在图2中绘制了所有三个因素在整个回测期间的超额回报。
- 从年度回报、风险调整回报和超额回报的角度来看,可以清楚地看到Erlangshen情感因素优于其他因素。为了进一步阐明从Erlangshen-110M-Sentiment模型中派生的情感因素的值与投资回报之间的相关性,我们根据它们在Erlangshen情感因素排名上将持有的股票分为三个不同的组。组1平均情感因素值最低,而组3显示最高值。然后在图3中绘制了组1、组2和组3的超额回报。值得注意的是,我们观察到在一段时间的波动后,这三个组逐渐分离。此外,组3,其特点是最高的Erlangshen情感因素值,始终表现出最高的回报,而组1,其特点是最低的Erlangshen情感因素值,始终表现出最低的超额回报。这一观察结果进一步证实了通过Erlangshen-110M-Sentiment模型提取的Erlangshen情感因素与投资回报之间的密切关联和相关性。
- 令人惊讶的是,相对较小的Erlangshen模型,只有110万个参数,竟然在我们的基准测试中表现略优。这个结果证明了在中国量化股票交易策略中工作的从业者和研究人员可能并不总是需要投入大量资源到更大的模型中。相反,通过采用针对中国语言特点的战略微调和广泛的预训练技术,可以有效地实现预期的结果。这一发现强调了考虑语言特定特征和采用有针对性的方法的重要性,说明在中国金融情感提取的特定任务中,可以在不仅仅依赖于模型大小的情况下实现最佳结果。
- 本研究探讨了大型语言模型(LLMs)在从中国新闻文本数据中提取情感因素方面对量化股票交易策略的潜力。我们的研究解决了在中国股票市场成功应用LLMs的需求,并提供了一个严格的基准和标准化的回测框架,以客观评估LLMs在从中国新
实验结果:
实验结果和分析:
本研究旨在评估不同类型的大型语言模型(LLMs)在从中国金融文本中提取情感因素方面的效果,并建立了一个全面且严格的基准以及标准化的回测框架。研究采用了三种不同的模型进行实验:生成型LLM(Chat-GPT)、中文语言特定预训练LLM(Erlangshen-RoBERTa)和金融领域特定微调LLM分类器(Chinese FinBERT)。实验结果表明,Erlangshen情感因素在所有指标下表现优于其他因素。此外,我们观察到Erlangshen情感因素的值与投资组合超额收益之间存在强烈的相关性,证明了该因素在捕捉中国股市投资机会方面的有效性。
这些发现强调了在将LLMs应用于中国金融文本的情感因素提取时,语言特定的考虑和针对性方法的重要性,同时强调了相对较小的LLM在特定任务中的优越性能。通过提供全面的基准和标准化的程序,本研究为了解LLMs在从中国新闻文本中提取情感因素的专业领域中的潜力做出了贡献。我们展示了将先前研究的见解纳入其中,并使用可量化的指标进行严格的回测来评估LLMs在量化交易策略中的有效性的重要性。我们邀请其他研究人员和量化金融从业者参考我们的基准和标准化的回测程序,以便共同揭示情感的潜力。