计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07_harmful fine-tuning attacks and defenses for large-CSDN博客

本文链接：https://blog.csdn.net/fyf2007/article/details/142735109

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07

1. Evaluation of Large Language Models for Summarization Tasks in the Medical Domain: A Narrative Review

E Croxford, Y Gao, N Pellegrino, KK Wong, G Wills… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2409.18170

大型语言模型在医学领域摘要任务的评估：一项叙述性综述

摘要

本文是一篇叙述性综述，旨在评估大型语言模型（LLMs）在临床摘要任务中的当前评估状态，并提出未来的方向，以解决专家人工评估的资源限制问题。

研究背景

大型语言模型（LLMs）在自然语言生成（NLG）领域取得了显著进展，尤其在医疗领域，LLMs有助于减轻医疗保健提供者的文档负担。然而，医学的高风险性质要求对LLMs的性能进行可靠评估，这仍然是一个挑战。
在这里插入图片描述

问题与挑战

在医学等高风险环境中应用LLMs的一个主要挑战是确保它们的性能得到可靠评估。现有的评估指标（如n-gram重叠和语义分数）对于医学领域的细微需求来说是不够的。

如何解决

文章提出了使用LLMs作为评估工具的概念，通过指令调整和强化学习与人类反馈（RLHF）的方法，使LLMs能够更精确地遵循评估标准。

创新点

LLM作为评估者：提出使用LLMs作为人类专家评估的补充，通过模拟人类评估者的行为来进行评估。
指令调整：通过指令工程来调整LLMs，使其能够执行特定任务。
参数高效微调：使用量化和低秩适配器来微调模型，以嵌入任务特定知识。

算法模型

BERTScore：用于评估文本生成质量的度量。
直接偏好优化（DPO）：一种基于人类偏好的直接优化方法，用于微调LLMs。

实验效果

文章没有提供具体的实验数据，因为它是一篇叙述性回顾，而不是实验性研究。它讨论了评估LLMs的不同方法，并提出了未来研究的方向。

2. Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing

HI Ashqar, A Jaber, TI Alhadidi, M Elhenawy - arXiv preprint arXiv:2409.18286, 2024
https://arxiv.org/abs/2409.18286

使用多模态大型语言模型（MLLMs）推进交通系统中的目标检测：一项全面回顾和实证测试

摘要

本研究旨在全面回顾和实证评估多模态大型语言模型（MLLMs）和大型视觉模型（VLMs）在交通系统目标检测中的应用。研究首先提供了MLLMs在交通应用中的潜在优势的背景，并回顾了先前研究中当前MLLM技术的有效性和局限性。然后提供了交通应用中端到端目标检测的分类法和未来方向的概述。在此基础之上，提出了对三个实际交通问题的MLLMs进行实证分析，包括道路安全属性提取、安全关键事件检测和热图像视觉推理。研究结果提供了对MLLM性能的详细评估，揭示了其优势和改进领域。