UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment
尽管现有的提示方法(如上下文学习和大型语言模型的思维链)取得了重大成就,但它们仍然面临着各种偏见的挑战。传统的去偏方法主要集中在模型训练阶段,包括基于数据增强和基于重加权的方法,其局限性在于解决LLM的复杂偏差。为了解决这些局限性,使用结构因果模型揭示了提示方法背后的因果关系,并提出了一种基于前门调整的新型因果提示方法,以有效减轻LLM的偏差。具体而言,因果干预是通过设计提示来实现的,而无需访问LLM的参数和logits。原创 2024-05-21 11:38:06 · 1 阅读 · 0 评论 -
Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks
多模态大语言模型(MLLMs)已被证明在需要复杂推理和语言理解的广泛任务中是有效的。然而,由于缺乏英语以外语言的高质量多模态资源,MLLM的成功仍然相对局限于以英语为基础的环境。这对开发其他语言的可比模型提出了重大挑战,甚至包括阿拉伯语等母语人口众多的语言。为了缓解这一挑战,我们引入了一个全面的阿拉伯语MLLMs家族,名为Peacock,具有强大的视觉和语言能力。通过全面的定性和定量分析,我们展示了我们的模型在各种视觉推理任务上的扎实表现,并进一步展示了它们新兴的方言潜力。原创 2024-05-20 19:11:18 · 3 阅读 · 0 评论 -
Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal
大型语言模型(LLM)在持续学习过程中会遭受灾难性的遗忘。传统的基于复述的方法依赖于先前的训练数据来保留模型的能力,这在现实世界的应用中可能不可行。当基于公开发布的LLM检查点进行持续学习时,原始训练数据的可用性可能不存在。为了应对这一挑战,我们提出了一个称为自合成复述(SSR)的框架,该框架使用LLM生成用于复述的合成实例。具体来说,我们首先使用用于上下文学习的基本LLM来生成合成实例。随后,我们利用最新的LLM基于合成输入来细化实例输出,保留其获得的能力。原创 2024-05-20 15:34:24 · 110 阅读 · 0 评论 -
Exploring the Limitations of Large Language Models in Compositional Relation Reasoning
我们通过一个包含1500个英语测试案例的基准,对大型语言模型(LLM)推理作文关系的能力进行了全面评估,该基准旨在涵盖六种不同类型的作文关系:位置关系、比较关系、个人关系、数学关系、同一性关系和其他关系。认识到多语言能力的重要性,我们扩大了评估范围,将这些案例翻译成中文、日语、法语和韩语。我们的多语言作文关系(MCR)基准旨在研究LLM在处理不同语言背景下的作文关系推理时的稳健性和适应性。我们的基准MCR将在发布。原创 2024-05-20 10:31:21 · 231 阅读 · 0 评论 -
Where does In-context Translation Happen in Large Language Models?
自监督的大型语言模型已经证明了通过上下文学习执行机器翻译(MT)的能力,但对于模型在哪里执行提示指令和演示示例的任务知之甚少。在这项工作中,我们试图描述大型语言模型从上下文学习者过渡到翻译模型的区域。通过在GPTNEO2.7B、BLOOM3B、LLAMA7B和LLAMA7B-CHAT上进行的一系列分层上下文掩蔽实验,我们证明了“任务识别”点的证据,即翻译任务被编码到输入表示中,不再需要关注上下文。我们进一步观察到屏蔽整个层时的低性能与任务识别层之间的对应关系。原创 2024-05-20 10:13:43 · 86 阅读 · 0 评论 -
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models
基于Transformer的语言模型将FLOP均匀地分布在输入序列中。在这项工作中,我们证明了Transformer可以学习将FLOP(或计算)动态分配到序列中的特定位置,从而优化沿序列在模型深度上的不同层的分配。我们的方法通过限制token数量来强制执行总计算预算(𝑘) 其可以参与在给定层的自注意力和MLP计算。要处理的token由网络使用顶部确定-𝑘 路由机制。自从𝑘 是先验定义的,与其他条件计算技术不同,这个简单的过程使用具有已知张量大小的静态计算图。原创 2024-05-17 16:26:15 · 112 阅读 · 0 评论 -
ROME : Memorization Insights from Text, Probability and Hidden State in Large Language Models
探究大型语言模型的记忆具有重要意义。先前的工作已经建立了量化记忆的指标,探索了各种影响因素,如数据重复、模型大小和提示长度,并通过将模型输出与训练语料库进行比较来评估记忆。然而,训练语料库规模庞大,预处理耗时。为了在不访问训练数据的情况下探索记忆,我们提出了一种新的方法,称为ROME,其中通过比较记忆和非记忆的差异来探索记忆。具体来说,模型首先将所选样本分为记忆组和非记忆组,然后从文本、概率和隐藏状态的角度对两组样本的演示进行比较。实验结果表明,单词长度、词性、词频、均值和方差等因素存在差异。原创 2024-05-17 15:49:33 · 4 阅读 · 0 评论 -
UrbanGPT: Spatio-Temporal Large Language Models
时空预测旨在预测和深入了解城市环境在时间和空间上不断变化的动态。其目的是预测城市生活各个方面的未来模式、趋势和事件,包括交通、人口流动和犯罪率。尽管已经做出了许多努力来开发用于对时空数据进行准确预测的神经网络技术,但重要的是要注意,这些方法中的许多在很大程度上依赖于具有足够的标记数据来生成精确的时空表示。不幸的是,数据稀缺的问题在实际的城市传感场景中普遍存在。在某些情况下,从下游场景中收集任何标记数据变得很有挑战性,这进一步加剧了问题。原创 2024-05-17 15:18:12 · 3 阅读 · 0 评论 -
Long-context LLMs Struggle with Long In-context Learning
大型语言模型(LLM)在处理超过32Ktoken的长序列方面取得了重大进展。然而,他们的表现评估在很大程度上局限于困惑和合成任务等指标,这些指标可能无法完全反映他们在更微妙的现实世界场景中的能力。本研究引入了一个专门的基准(LongICLBeach),专注于极端标签分类领域内的长时间上下文学习。我们精心选择了六个数据集,标签范围从28到174个类,涵盖了从2K到50Ktoken的不同输入(小样本演示)长度。我们的基准测试要求LLM理解整个输入,以识别大量的标签空间,从而做出正确的预测。原创 2024-05-17 15:00:29 · 80 阅读 · 0 评论 -
Jamba: A Hybrid Transformer-Mamba Language Model
我们提出了Jamba,这是一种新的基于新型混合Transformer-Mamba专家混合(MoE)架构的基础大型语言模型。具体来说,Jamba交错了Transformer和Mamba层的块,享受了这两个模型族的好处。在其中一些层中添加了MoE,以增加模型容量,同时保持活动参数使用的可控性。这种灵活的体系结构允许特定于资源和目标的配置。在我们实现的特定配置中,我们最终得到了一个强大的模型,可以容纳一个80GB的GPU。原创 2024-05-16 19:02:39 · 123 阅读 · 0 评论 -
I Think, Therefore I am: Benchmarking Awareness of Large Language Models Using AWAREBENCH
大型语言模型(LLM)是否表现出与人类相似的意识形式?在本文中,我们介绍了AWAREBENCH,这是一个旨在评估LLM意识的基准。根据心理学和哲学的理论,我们将LLM中的意识定义为将自己理解为人工智能模型并展示社会智能的能力。随后,我们将LLM中的意识分为五个维度,包括能力、使命、情感、文化和视角。基于这种分类法,我们创建了一个名为AWAREEVAL的数据集,其中包含二进制、多项选择和开放式问题,以评估LLM对特定意识维度的理解。原创 2024-03-06 11:30:46 · 21 阅读 · 0 评论 -
GCOF: Self-iterative Text Generation for Copywriting Using Large Language Model
ChatGPT等大型语言模型(LLM)大大简化了营销副本的生成,但生成满足特定领域要求的内容(如有效吸引客户)仍然是一个重大挑战。在这项工作中,我们介绍了遗传拷贝优化框架(GCOF),旨在提高营销拷贝创建的效率和参与度。我们在LLM的提示下进行显式特征工程。此外,我们修改了遗传算法中的交叉算子,将其集成到GCOF中,以实现自动特征工程。这种集成有助于营销副本的自迭代精化。与人工策划的副本相比,在线结果表明,我们的框架制作的副本的点击率平均提高了50%以上。原创 2024-04-26 15:57:56 · 22 阅读 · 0 评论 -
Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization
摘要1 引言2 相关工作3 我们的方法4 实验5 结论这项工作的重点是基于查询的会议摘要任务,其中生成上下文摘要(会议记录)以响应特定查询。在此任务中使用大型语言模型(LLM)时,即使上下文保持不变,每个新查询也需要对LLM推理端点/API进行新调用。然而,对LLM推理端点的重复调用会显著增加在生产中使用它们的成本,使LLM对于许多真实世界的用例来说不切实际。为了解决这个问题,在本文中,我们研究了在单个提示中组合对相同输入上下文的查询以最小化重复调用是否可以成功地用于会议摘要。原创 2024-05-16 14:49:28 · 4 阅读 · 0 评论 -
Gender Bias in Large Language Models across Multiple Languages
随着大型语言模型(LLM)在各种应用程序中的部署越来越多,评估LLM中嵌入的性别偏见的影响变得至关重要。自然语言处理领域中的性别偏见问题已经引起了相当大的关注,尤其是在英语领域。尽管如此,对英语以外语言中的性别偏见的调查仍然相对不足,分析不足。在这项工作中,我们研究了LLM生成的不同语言输出中的性别偏见。我们使用了三种测量方法:1)在与性别相关的背景下,在选择描述性词语时存在性别偏见。2) 在给定描述性词语的情况下,选择与性别相关的代词(she/he)时存在性别偏见。3) LLM生成的对话主题中的性别偏见。原创 2024-05-16 14:05:38 · 2 阅读 · 0 评论 -
Gecko: Versatile Text Embeddings Distilled from Large Language Models
我们介绍了Gecko,一个紧凑而通用的文本嵌入模型。Gecko通过利用一个关键思想实现了强大的检索性能:将大型语言模型(LLM)中的知识蒸馏到检索器中。我们的两步蒸馏过程从使用LLM生成不同的合成配对数据开始。接下来,我们通过为每个查询检索一组候选段落,并使用相同的LLM重新标记正面和反面段落,来进一步改进数据质量。Gecko的紧凑性证明了我们方法的有效性。在海量文本嵌入基准测试(MTEB)上,具有256个嵌入维度的Gecko优于具有768个嵌入大小的所有现有条目。原创 2024-05-16 11:28:14 · 1 阅读 · 0 评论 -
LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS
大型语言模型(LLM)在响应开放式主题的事实查询提示时,通常会生成包含事实错误的内容。为了在开放域中对模型的长期事实性进行基准测试,我们首先使用GPT-4生成LongFact,这是一个由跨越38个主题的数千个问题组成的提示集。然后,我们提出LLM代理可以通过一种我们称之为搜索增强事实评估器(SAFE)的方法用作长期事实性的自动评估器。SAFE利用LLM将长形式的响应分解为一组单独的事实,并使用多步骤推理过程评估每个事实的准确性,该推理过程包括向谷歌搜索发送搜索查询并确定搜索结果是否支持某个事实。原创 2024-05-16 10:54:15 · 1 阅读 · 0 评论 -
RETHINKING MACHINE UNLEARNING FOR LARGE LANGUAGE MODELS
我们在大型语言模型(LLM)领域中探索机器遗忘(MU),称为LLM遗忘。这一举措旨在消除不希望的数据影响(如敏感或非法信息)和相关的模型能力,同时保持基本知识生成的完整性,不影响因果无关的信息。我们设想LLM学习将成为LLM生命周期管理的一个关键要素,有可能成为开发生成性人工智能的重要基础,该人工智能不仅安全、可靠,而且资源高效,无需全面再训练。我们从概念表述、方法、指标和应用的角度来浏览LLM中的遗忘景观。原创 2024-05-16 10:31:07 · 68 阅读 · 0 评论 -
Ask Optimal Questions: Aligning Large Language Models with Retriever’s Preference in Conversational
与单轮检索任务不同,对话搜索需要在对话上下文中理解当前问题。重写然后检索的常见方法旨在去文本化问题,使现成的检索器能够自给自足,但由于结合检索结果信号的能力有限,大多数现有方法都会产生次优查询重写。为了克服这一限制,我们提出了一个新的框架RETPO(检索者偏好优化),该框架旨在优化语言模型(LM),以根据目标检索系统的偏好重新制定搜索查询。该过程首先提示大型LM生成各种潜在的重写,然后收集这些重写的检索性能作为检索器的首选项。原创 2024-05-16 10:17:48 · 0 阅读 · 0 评论 -
ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models
激活稀疏性是指在激活输出中存在相当多的弱贡献元素。作为使用ReLU激活函数的模型的一个普遍特性,它已被证明是提高模型推理效率的一个很有前途的范例。然而,大多数大型语言模型(LLM)采用的激活函数没有内在的激活稀疏性(例如,GELU和Swish)。最近的一些努力已经探索引入ReLU或其变体作为替代激活函数,以帮助LLM实现激活稀疏性和推理加速,但很少有人能同时获得高稀疏性和可比较的模型性能。本文介绍了一种有效的稀疏化方法“ProSparse”,在不降低模型性能的情况下,使得LLM以获得更高的激活稀疏性。原创 2024-05-16 10:08:04 · 100 阅读 · 0 评论 -
Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence
具有新兴功能的大型语言模型(LLM)的迅速流行激发了公众对评估和比较不同LLM的好奇心,导致许多研究人员提出了他们的LLM基准。注意到这些基准的初步不足,我们开始了一项研究,在功能和安全的支柱下,通过人员、流程和技术的视角,使用我们新颖的统一评估框架,对23个最先进的LLM基准进行批判性评估。我们的研究发现了重大的局限性,包括偏见、难以衡量真正的推理、适应性、实施不一致性、提示工程的复杂性、评估者的多样性,以及在一次全面评估中忽视文化和意识形态规范。原创 2024-05-15 19:36:00 · 5 阅读 · 0 评论 -
QDyLoRA: Quantized Dynamic Low-Rank Adaptation for Efficient Large Language Model Tuning
微调大型语言模型需要巨大的GPU内存,限制了获取大型模型的选择。虽然低秩自适应技术的量化版本QLoRA显著缓解了这一问题,但找到有效的LoRA秩仍然具有挑战性。此外,QLoRA是在预定义的秩上进行训练的,因此,在不需要进一步微调步骤的情况下,不能为其较低的秩进行重新配置。本文提出了一种有效的量化动态低秩自适应方法——QDyLoRA。受Dynamic LoRA的启发,QDyLoRA能够在一组预定义的LoRA秩上有效地微调LLM。原创 2024-05-15 16:47:19 · 5 阅读 · 0 评论 -
LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language Models
自动并排评估已成为评估大型语言模型(LLM)响应质量的一种很有前途的方法。然而,分析这种评估方法的结果会带来可扩展性和可解释性方面的挑战。在本文中,我们介绍了LLM Comparator,这是一种新颖的视觉分析工具,用于交互式分析自动并排评估的结果。该工具支持交互式工作流,用户可以了解模型何时以及为什么比基线模型表现更好或更差,以及两个模型的响应在质量上有何不同。我们与一家大型科技公司的研究人员和工程师密切合作,反复设计和开发了该工具。原创 2024-05-15 16:16:43 · 5 阅读 · 0 评论 -
Uncertainty Awareness of Large Language Models Under Code Distribution Shifts: A Benchmark Study
大型语言模型(LLM)已被广泛应用于编程语言分析,以提高人类生产力。然而,它们的可靠性可能会受到各种代码分布变化的影响,导致输出不一致。虽然已知概率方法可以通过不确定性校准和估计来减轻这种影响,但与它们在基于图像的任务中的应用相比,它们在语言领域的功效仍有待探索。在这项工作中,我们首先介绍了一个大规模的基准数据集,其中包含了三种不同强度的代码分布变化的现实模式。然后,我们使用这些移位的代码片段,深入研究了应用于CodeLlama的最先进的概率方法。原创 2024-05-15 15:01:43 · 5 阅读 · 0 评论 -
How do Large Language Models Handle Multilingualism?
大型语言模型(LLM)在一系列语言中表现出非凡的性能。在这项工作中,我们深入研究了一个问题:LLM如何处理多种语言?我们介绍了一个描述LLM处理多语言输入的框架:在前几层,LLM理解问题,将多语言输入转换为英语,以促进任务解决阶段。在中间层,LLM通过用英语思考和结合多语言知识来获得事实内容,分别利用自注意力和前馈结构来解决问题。在最后几层中,LLM生成与查询的原始语言一致的响应。此外,我们还研究了在处理某种语言时特定语言神经元的存在。原创 2024-05-15 14:45:18 · 4 阅读 · 0 评论 -
Teaching Large Language Models an Unseen Language on the Fly
现有的大型语言模型很难支持许多低资源的语言,尤其是资源极低的语言,因为这些语言可用于有效更新参数的训练数据很少。因此,我们研究LLM是否可以仅通过提示快速学习一种新语言。为了研究这个问题,我们收集了一个壮族的研究套件,这是一种目前没有LLM支持的语言。我们介绍了DIPMT++,这是一个通过无文本学习使LLM适应看不见的语言的框架。DIPMT++使用字典和仅5K个平行句子,显著提高了GPT-4的中文到壮语翻译性能,从0到16BLEU,并实现了壮语到中文翻译的32BLEU。原创 2024-05-15 13:41:12 · 5 阅读 · 0 评论 -
LEVERAGING LARGE LANGUAGE MODELS FOR STRUCTURE LEARNING IN PROMPTED WEAK SUPERVISION
提示弱监督(PromptedWS)在弱监督框架中应用预训练的大型语言模型(LLM)作为标记函数(LFs)的基础,以获得大型标记数据集。我们进一步扩展了LLM在循环中的使用,以解决弱监管中的一个关键挑战:学习监管来源之间的统计依赖结构。在这项工作中,我们询问LLM这些提示LFs有多相似。我们提出了一种结构细化模块,这是一种简单而有效的第一种方法,基于提示的相似性,利用嵌入空间中的内在结构。结构细化模块的核心是标记函数去除(LaRe)和相关结构生成(CosGen)。原创 2024-05-15 11:06:25 · 5 阅读 · 0 评论 -
OpenFedLLM: Training Large Language Models on Decentralized Private Data via Federated Learning
经过大量公开数据的训练,大型语言模型(LLM)在各个领域都取得了巨大的成功。虽然更多的数据有助于提高性能,但令人不安的现实是,高质量的公共数据将在几年内耗尽。在本文中,我们为当代LLM提供了一个潜在的下一步:通过联邦学习(FL)对未充分利用的分布式私有数据进行协作和隐私保护LLM训练,其中多个数据所有者在不传输原始数据的情况下协作训练共享模型。为了实现这一点,我们构建了一个简洁、集成且便于研究的框架/代码库,名为OpenFedLLM。原创 2024-05-15 10:53:05 · 8 阅读 · 0 评论 -
Shortened LLaMA: A Simple Depth Pruning for Large Language Models
现代大型语言模型(LLM)的结构化修剪已经成为减少其高计算需求的一种方式。宽度修剪减少了投影权重矩阵的大小(例如,通过移除注意力头),同时保持了层数。相反,深度修剪会删除整个层或块,同时保持剩余权重的大小不变。目前的大多数研究都集中在仅宽度修剪或宽度和深度修剪的混合上,很少对这两个单元(宽度与深度)对LLM推理效率的影响进行比较分析。在这项工作中,我们证明了简单的深度修剪方法可以在零样本任务性能方面与最近的宽度修剪方法相竞争。原创 2024-05-15 09:24:04 · 6 阅读 · 0 评论 -
Less is KEN: a Universal and Simple Non-Parametric Pruning Algorithm for Large Language Models
由于神经网络模型的复杂性及其在各个领域的广泛应用,神经网络修剪变得越来越重要。现有的修剪算法经常受到架构特异性、过度复杂和对复杂计算的依赖等限制,这使得它们在现实世界的应用中不切实际。在本文中,我们提出了KEN:一种基于核密度估计(KDE)的简单、通用和非结构化修剪算法。KEN旨在通过选择性地保留最重要的参数,同时将其他参数恢复到其预训练状态,来构建优化的transformer模型。这种方法保持了模型性能,同时只允许存储优化的子网络,从而显著节省了内存。原创 2024-05-14 19:38:07 · 8 阅读 · 0 评论 -
The Information of Large Language Model Geometry
本文研究了大型语言模型(LLM)嵌入中编码的信息。我们进行模拟来分析表示熵,并发现与模型大小的幂律关系。基于这一观察结果,我们提出了一个基于(条件)熵的理论来阐明标度律现象。此外,我们深入研究了LLM的自回归结构,并使用信息论和回归技术研究了最后一个token和之前的上下文token之间的关系。具体来说,我们在新token的信息增益和岭回归之间建立了理论联系。此外,我们还探讨了拉索回归在选择有意义的token方面的有效性,它有时优于密切相关的注意力权重。原创 2024-05-14 19:30:57 · 391 阅读 · 0 评论 -
Large Language Models are Few-shot Generators: Proposing Hybrid Prompt Algorithm
网络攻击的频繁发生,使得webshell攻击与防御逐渐成为网络安全领域的研究热点。然而,由于缺乏公开的基准数据集,以及过度依赖手动定义的webshell转义样本生成规则,导致webshell转义采样生成策略和基于人工智能的webshell检测算法的研究进展缓慢。为了解决webshell样本转义能力较弱、缺乏具有复杂恶意特征的webshell数据集的缺点,并促进webshell检测技术的发展,我们提出了借助大型语言模型生成webshell转义样本的混合提示算法。原创 2024-05-14 10:30:55 · 9 阅读 · 0 评论 -
Psychological Assessments with Large Language Models: A Privacy-Focused and Cost-Effective Approach
本研究探索了使用大型语言模型(LLM)来分析Reddit用户的文本评论,旨在实现两个主要目标:首先,找出支持对自杀风险进行预定义心理评估的关键摘录;其次,总结材料,以证实预先分配的自杀风险水平。这项工作仅限于使用可以在本地运行的“开源”LLM,从而增强数据隐私。此外,它优先考虑计算需求低的模型,使个人和机构都可以使用有限的计算预算。实现的策略只依赖于精心制作的提示和语法来指导LLM的文本完成。尽管它很简单,但评估指标显示出了出色的结果,使其成为一种有价值的以隐私为重点且具有成本效益的方法。原创 2024-05-14 10:11:04 · 6 阅读 · 0 评论 -
Discovering More Effective Tensor Network Structure Search Algorithms via Large Language Models
张量网络结构搜索(TN-SS)旨在搜索表示高维问题的合适张量网络(TN)结构,在很大程度上提高了TN在各种机器学习应用中的效率。尽管如此,使用现有算法找到令人满意的TN结构仍然具有挑战性。为了开发更有效的算法,避免人工费力的开发过程,我们探索了嵌入大型语言模型(LLM)中的知识,用于TN-SS算法的自动设计。我们的方法被称为GPTN-SS,利用了一个精心制作的基于LLM的提示系统,该系统以类似进化的方式运行。原创 2024-05-13 11:22:42 · 108 阅读 · 0 评论 -
Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models
对于传统的非生成深度学习模型来说,解释股票预测通常是一项困难的任务,因为解释仅限于可视化重要文本的注意力权重。如今,大型语言模型(LLM)为这个问题提供了一种解决方案,因为它们具有为决策过程生成人类可读解释的已知能力。然而,股票预测的任务对LLM来说仍然具有挑战性,因为它需要能够权衡混乱的社会文本对股价的不同影响。随着解释部分的引入,这个问题变得越来越困难,这需要LLM口头解释为什么某些因素比其他因素更重要。原创 2024-05-13 10:50:56 · 104 阅读 · 0 评论 -
Can Large Language Models Detect Rumors on Social Media?
在这项工作中,我们研究了使用大型语言模型(LLM)在社交媒体上进行谣言检测。然而,LLM很难对包含新闻内容和大量评论的社交媒体上的整个传播信息进行推理,因为LLM可能不会专注于复杂传播信息中的关键线索,并且在面对大量冗余信息时难以推理。因此,我们提出了一种LLM赋能的谣言检测(LeRuD)方法,在该方法中,我们设计提示,教LLM对新闻和评论中的重要线索进行推理,并将整个传播信息划分为传播链,以减轻LLM的负担。原创 2024-05-12 22:25:08 · 14 阅读 · 0 评论 -
Measuring Implicit Bias in Explicitly Unbiased Large Language Models
大型语言模型(LLM)可以通过显性偏见测试,但仍然存在隐性偏见,类似于支持平等主义信仰但表现出微妙偏见的人类。测量这种隐性偏见可能是一个挑战:随着LLM变得越来越专有,可能不可能访问其嵌入并应用现有的偏见测量;此外,如果隐性偏见影响到这些系统做出的实际决策,那么它们主要是一个令人担忧的问题。我们通过引入两种受心理学启发的偏见测量方法来应对这两个挑战:LLM内隐联想测试(IAT)偏见,这是一种基于提示的揭示内隐偏见的方法;以及LLM决策偏差,用于检测决策任务中的细微差别。原创 2024-05-12 22:20:12 · 10 阅读 · 0 评论 -
THE WORLD OF GENERATIVE AI: DEEPFAKES AND LARGE LANGUAGE MODELS
我们生活在生成人工智能时代。Deepfakes和大型语言模型(LLM)是GenAI的两个例子。Deepfakes尤其对社会构成了惊人的威胁,因为它们能够传播错误信息并改变真相。LLM是生成通用语言的功能强大的语言模型。然而,由于其生成性,如果出于恶意使用,也可能对人们造成风险。这些技术的道德使用是一个大问题。这篇短文试图找出它们之间的相互关系。Deepfake和人工智能聊天机器人都是生成型人工智能的产物。两者都单独威胁着网络安全行业,共同严重恶化了局势。这两种技术都创造了一些现实中不存在的东西。原创 2024-05-11 10:00:40 · 14 阅读 · 0 评论 -
The Fine-Grained Complexity of Gradient Computation for Training Large Language Models
大型语言模型(LLM)在过去几年中做出了重要贡献。要训练LLM,需要交替运行“正向”计算和“反向”计算。前向计算可以看作注意力函数评估,而后向计算可以看成梯度计算。在Alman和Song之前的工作中,已经证明了在某些参数状态下,前向步骤可以在几乎线性的时间内执行,但在剩余的参数状态下没有真正的次二次时间算法,除非流行的假设SETH是假的。在这项工作中,我们对计算一层注意力网络的损失函数梯度这一看似困难的问题,以及LLM训练的整个过程,给出了几乎相同的结果。这完全体现了LLM训练每一步的细粒度复杂性。原创 2024-05-11 09:39:40 · 84 阅读 · 0 评论 -
Multimodal Intention Knowledge Distillation from Large Language Models
社交媒体已经成为一种无处不在的工具,可以与他人联系、随时了解新闻、表达意见和寻找娱乐。然而,理解社交媒体帖子背后的意图仍然具有挑战性,因为这些意图具有隐含性和常识性,需要对文本和图像进行跨模态理解,以及存在诸如标签、拼写错误的单词和复杂缩写等嘈杂信息。为了应对这些挑战,我们提出了Miko,这是一个多模态意图知识提取框架,它协同利用大型语言模型(LLM)和多模态大型语言模式(MLLM)来揭示用户的意图。具体来说,我们使用MLLM来解释图像,使用LLM来从文本中提取关键信息,并最终再次指示LLM生成意图。原创 2024-05-11 09:29:33 · 66 阅读 · 0 评论 -
Collaborative decoding of critical tokens for boosting factuality of large language models
大型语言模型最常见的训练管道包括预训练、微调和对齐阶段,以及它们各自的结果模型,如预训练模型和微调模型。经过微调和调整的模型显示出更好的指令遵循和安全生成能力,但它们保持真实世界的能力会受到微调过程的影响。此外,在生成过程中使用采样的常见做法也增加了产生幻觉的机会。在这项工作中,我们引入了一个协作解码框架,通过关键token的概念来利用预训练模型中的高真实性。我们首先设计了一个关键token分类器来决定下一个token使用哪个模型,然后使用不同的解码策略生成下一个token。原创 2024-05-10 17:51:10 · 112 阅读 · 0 评论