LLM速览篇【91-120】

概述文档:基于LLM的最新研究方向归纳

这30篇内容可以发现当前LLMs在各个领域展现了强大的适应性和创新潜力,从医疗、教育、视觉任务到机器人控制、法律与政策、生成式AI、隐私保护和系统优化,LLMs的应用范围正在不断扩大。同时,这些研究也揭示了模型在隐私保护、信心校准、社会价值观对齐等方面仍需改进,未来的研究可以在这些方向上继续深入探索。
这30篇关于大型语言模型(LLMs)的最新研究,可以将它们归纳为以下几个主要方向
在这里插入图片描述

1. 医疗与健康领域(Paper91、Paper109、Paper100、Paper96)

这些研究展示了LLMs在医疗和健康领域的广泛应用,包括自动化医疗文档生成、CT图像辅助诊断、热带及传染性疾病分类、以及隐私保护的deepfake音频检测。这些成果展现了LLMs在提升医疗效率、提高诊断准确性和保护数据隐私方面的潜力。

2. 多模态与视觉任务(Paper92、Paper94、Paper98、Paper103、Paper104)

LLMs在多模态和视觉任务中的应用涵盖了多模态幻觉评估、图像融合、生成式推荐系统、多模态参与度预测和高效流式推理等方面,展示了LLMs在融合多种数据源和高效处理视觉-语言任务中的创新应用。

3. 教育与编程辅助(Paper93、Paper110、Paper108)

这些研究探讨了LLMs在教育和编程领域的应用,包括编写交互式编程教材、分析LLMs对编程课程学习的影响,以及在编程竞赛中评估LLMs的表现。结果表明LLMs有助于提高学习效率,但需要警惕学生对模型的过度依赖。

4. 数据处理与推荐系统(Paper95、Paper97、Paper99、Paper98)

研究展示了LLMs在数据处理和推荐系统中的应用,包括用于推荐劳动争议案例的混合机制、语义数据切片识别模型错误、文档级新颖性评估、以及动态语义推荐系统。这些研究表明LLMs在改进数据处理、提高推荐质量和增强新颖性评估方面的优势。

5. 机器人与任务规划(Paper74、Paper79、Paper86、Paper107)

这些研究提出了LLMs在机器人控制与任务规划中的应用,包括基于信号时间逻辑的机器人运动规划器、行为树生成框架、移动应用操作助手,以及基于进化启发式算法的边缘服务器任务调度方法,提升了机器人和任务规划的自动化能力。

6. 法律与政策应用(Paper111、Paper95、Paper112)

LLMs在法律与政策领域中的应用涵盖了检索增强生成系统在法律问题中的应用、劳动与就业案件的案例推荐,以及在预测选举投票行为时的偏差分析,表明LLMs在复杂法律场景中提升了检索准确性,但也面临语境偏差的挑战。

7. 生成式AI与创意工具(Paper113、Paper114、Paper115、Paper120)

这些研究探索了生成式AI在交通模拟、几何图像生成、软件工程和人类-AI协作中的应用,展示了LLMs在创意生成、自动化内容制作和文本质量控制中的潜力,同时强调了生成内容中幻觉管理的重要性。

8. 隐私保护与安全(Paper102、Paper96、Paper119)

这些研究探讨了LLMs在隐私保护和安全方面的应用,包括恶意域名和URL检测、隐私保护的deepfake检测,以及在去中心化社交网络中自动检测社区规则合规性,展现了LLMs在提升网络安全和保护隐私方面的重要作用。

9. 任务优化与系统架构(Paper105、Paper106、Paper89、Paper118)

研究涵盖了对深度神经网络的高效训练与剪枝、针对移动设备的弹性LLM服务、任务决策增强,以及图上的单层Transformer模型,展现了LLMs在优化模型性能和任务处理效率方面的应用。

Paper91 Efficient Fine-Tuning of Large Language Models for Automated Medical Documentation

摘要小结: 该研究介绍了MediGen,这是一个经过微调的大型语言模型,旨在从医患对话中自动生成医疗报告,以减轻医生行政负担;MediGen基于LLaMA3-8B模型微调,并在转录和总结临床互动方面取得了高准确率,其ROUGE得分达到58%,BERTScore-F1达到72%,显示出减轻医生行政负担和提高医疗效率的潜力。

Paper92 ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models

摘要小结: 本文提出了ODE,一种用于评估多模态大语言模型(MLLMs)中对象存在幻觉的开放集、动态协议,通过图结构建模现实世界概念间的关联并生成新样本,实验表明该方法能避免数据污染并可用于提升MLLM在现有基准上的表现。

Paper93 Developing an Interactive OpenMP Programming Book with Large Language Models

摘要小结: 本文介绍了利用大型语言模型(LLMs)编写《交互式OpenMP编程》教科书的过程,通过LLMs生成书籍结构和内容,并进行手动修订以达到教育目标,同时探讨了LLMs在创建教材内容的能力与限制,最终通过Jupyter Book框架实现了可执行代码的动态学习体验,为编程教育现代化提供了策略。

Paper94 Infrared and Visible Image Fusion with Hierarchical Human Perception

摘要小结: 该研究提出了Hierarchical Perception Fusion (HPFusion)方法,这是一种利用大型视觉-语言模型来融合图像的方法,它通过引入分层的人类语义先验来增强人类感知,不仅保留了信息,而且优化了融合图像以满足人类视觉系统,实验证明该方法在信息保留和人视觉增强方面都能达到高质量融合结果。

Paper95 An empirical evaluation of using ChatGPT to summarize disputes for recommending similar labor and employment cases in Chinese

摘要小结: 本文提出了一种混合机制,用于推荐劳动和就业诉讼中的相似案例;通过分类器基于两个案例的细目争议判断相似性,使用争议聚类和计算争议间余弦相似性作为分类任务的特征,实验结果表明该方法优于仅考虑争议聚类的先前系统;替换法院准备的争议为GPT-3.5和GPT-4生成的细目争议后重复实验,使用GPT-4生成的争议取得了更好结果,尽管使用ChatGPT生成的争议时分类器表现不佳,但结果仍令人满意,表明未来大型语言模型在实际应用中的潜力。

Paper96 SafeEar: Content Privacy-Preserving Audio Deepfake Detection

摘要小结: 本文提出了SafeEar框架,旨在不依赖访问语音内容的情况下检测deepfake音频,通过将神经音频编解码器设计到新型解耦模型中,分离音频样本的语义和声学信息,仅用声学信息进行检测,同时通过真实世界的编解码增强提高了检测器的效果,实验证明其在保护隐私的同时有效检测deepfake音频。

Paper97 What Is Wrong with My Model? Identifying Systematic Problems with Semantic Data Slicing

摘要小结: 这篇工作提出了SemSlicer框架,支持语义数据切片,利用大型语言模型来注释数据集并生成符合任何用户定义切片标准的切片,有效识别模型错误背后的系统性问题,其主要工作是通过无需现有特征的语义切片,提高了切片的准确性和灵活性。

Paper98 Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator

摘要小结: 本文提出了Twin-Tower Dynamic Semantic Recommender (TTDS),这是首个采用动态语义索引范式的生成式推荐系统,旨在解决现有方法中静态索引范式限制LLM能力利用的问题,同时提出了动态知识融合框架、双模态变分自编码器以及捕获高阶用户-物品互动模式的一系列新调优任务,实验证明其在LLM-based生成式RSs中具有优越性。

Paper99 NovAScore: A New Automated Metric for Evaluating Document Level Novelty

摘要小结: 本文提出了一种名为NovAScore的自动化指标,用于评估文档级的新颖性,该方法通过聚合原子信息的创新性和显著性得分,具有高度的可解释性,并通过动态权重调整方案提供灵活性,实验证明NovAScore与人类对新颖性的判断高度相关。

Paper100 Contextual Evaluation of Large Language Models for Classifying Tropical and Infectious Diseases

摘要小结: 该研究针对大型语言模型(LLM)在热带及传染性疾病领域的应用进行了深入探索,通过扩展现有开源数据集,加入了人口统计学及语义层面的临床和消费者信息,创建了包含11000多个提示的数据集,对比了通用和医疗专用LLM模型的表现,并将LLM的输出与人类专家进行了比较,实验表明人口统计学等信息有助于优化LLM的响应,最终开发了一个名为TRINDs-LM的原型研究工具,用于探索语境如何影响LLM在健康领域的输出。

Paper101 ProcessTBench: An LLM Plan Generation Dataset for Process Mining

摘要小结: 该研究介绍了ProcessTBench数据集,它是TaskBench数据集的扩展,旨在评估大型语言模型(LLMs)在处理更复杂场景(如多语言支持、并行动作处理等)中的表现,并通过过程挖掘框架来研究LLMs,以填补现有数据集在高级工具使用场景和过程视角研究方面的不足。

Paper102 DomURLs_BERT: Pre-trained BERT-based Model for Malicious Domains and URLs Detection and Classification

摘要小结: 本文提出了DomURLs_BERT,一种基于预训练BERT的编码器,用于检测和分类可疑或恶意的域名和URL,它在大型多语言URL、域名和DGA数据集上使用掩码语言建模目标进行预训练,并在多个二分类和多分类任务上评估其性能,结果显示DomURLs_BERT在多个任务和数据集上优于现有字符基深度学习模型和专注于网络安全的BERT模型,相关数据集、预训练编码器和实验源代码已公开。

Paper103 Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation

摘要小结: 本研究通过收集34名参与者在自然对话中的多模态数据,利用大型语言模型(LLM)提出了一种新颖的融合策略来整合行为模态,创建“多模态转录本”,用于预测对话中的参与度,其初步实现展现了与现有融合技术相当的性能,为理解人类沟通和改善多方面社会效益提供了新途径。

Paper104 Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU

摘要小结: 本文提出了Inf-MLLM,这是一种针对多模态大型语言模型(MLLMs)的高效推理框架,能够在单个GPU上实现无限上下文的流式推理,主要工作是通过发现“注意力鞍点”模式来动态缓存相关令牌,并引入注意力偏差以捕获长期依赖,实现了在长文本和长视频上的稳定性能,且优于现有方法。

Paper105 HESSO: Towards Automatic Efficient and User Friendly Any Neural Network Training and Pruning

摘要小结: 本文提出了Hybrid Efficient Structured Sparse Optimizer (HESSO)以解决现有结构化剪枝方法中的多阶段流程和工程努力问题,HESSO能自动高效地训练DNN生成高性能子网络,几乎无需调参,并提出了Corrective Redundant Identification Cycle (CRIC)防止性能崩溃,实验证明HESSO及HESSO-CRIC在多种应用中表现出竞争力。

Paper106 ELMS: Elasticized Large Language Models On Mobile Devices

摘要小结: 本文介绍了ELMS,一种针对移动设备设计的弹性大型语言模型服务,旨在通过模型和提示维度的弹性来满足不同应用的服务级别目标(SLOs),包括一次性神经元重排技术和双头紧凑语言模型,实验证明ELMS在多种SLOs下超越基线,平均准确度提高16.83%和11.04%,且切换开销小,内存使用相当。

Paper107 TS-EoH: An Edge Server Task Scheduling Algorithm Based on Evolution of Heuristic

摘要小结: 这篇论文提出了一种基于进化计算理论和启发式算法的新型任务调度方法,用于处理边缘计算中的实时处理需求,通过大型语言模型服务评估调度方案,实验结果显示该方法优于现有启发式和传统强化学习方法,并探讨了不同启发式策略的影响以及不同LLM服务的进化结果。

Paper108 Evaluating the Performance of Large Language Models in Competitive Programming: A Multi-Year, Multi-Grade Analysis

摘要小结: 该研究评估了大型语言模型(LLMs)在解决罗马尼亚县级信息学奥林匹克竞赛题目中的表现,通过收集和分析2002年至2023年的304个挑战题目,特别关注了LLMs使用C++和Python编写的解决方案,旨在探究LLMs在不同任务中表现优劣的原因,研究发现不同年级和问题类型的LLMs表现存在显著差异,其中GPT-4表现出色,显示出其作为中学教育工具的潜力,并观察到不同LLMs在代码质量和风格上的差异。

Paper109 OrthoDoc: Multimodal Large Language Model for Assisting Diagnosis in Computed Tomography

摘要小结: 本文提出了一种针对CT诊断的多模态大语言模型OrthoDoc,通过训练120,000个CT图像和诊断报告,并结合检索增强生成模块,有效提高了模型在诊断常见骨科疾病(如骨折、关节炎和肿瘤)方面的性能,并在广泛的实验中优于GPT-4等商业模型,展现出卓越的诊断能力和准确性。

Paper110 AI Meets the Classroom: When Does ChatGPT Harm Learning?

摘要小结: 本文通过三个研究探究了生成式AI特别是大型语言模型(LLMs)对编程课程学习的影响,发现LLM的使用对学习成果有正面和负面影响,通过大学编程课程观察数据和后续实验研究验证了这一发现,指出LLM作为个人导师时有助于学习,但过度依赖LLM解决练习题会损害学习效果,无领域知识的学生从LLM中获益更多,同时学生可能会高估LLM学习效果,表明LLMs有作为学习支持的潜力,但需警惕潜在风险。

Paper111 HyPA-RAG: A Hybrid Parameter Adaptive Retrieval-Augmented Generation System for AI Legal and Policy Applications

摘要小结: 本文提出了一种针对AI法律和政策领域的混合参数自适应检索增强生成(HyPA-RAG)系统,以纽约市地方法律144(LL144)为例,该系统通过使用查询复杂性分类器进行自适应参数调整,结合密集、稀疏和知识图谱的混合检索策略,以及具有特定问题类型和指标的评估框架,动态调整参数以显著提高检索准确性和响应保真度,并在LL144上的测试表明,该系统提高了正确性、忠实度和上下文精确度,满足了复杂、高风险AI法律和政策应用中对可适应NLP系统的需求。

Paper112 United in Diversity? Contextual Biases in LLM-Based Predictions of the 2024 European Parliament Elections

摘要小结: 该研究探讨了大型语言模型(LLM)在预测公众意见时是否表现出语境依赖的偏差,通过预测2024年欧洲议会选举的投票行为来评估LLM-synthetic样本的适用性,发现LLM预测未来投票行为的准确性有限,且在国家与语言环境中分布不均,指出改进预测需详细个体态度信息,研究有助于理解和减轻LLM开发及其在计算社会科学应用中的偏差与不平等。

Paper113 ChatSUMO: Large Language Model for Automating Traffic Scenario Generation in Simulation of Urban MObility

摘要小结: 本文介绍了ChatSUMO,这是一个基于大型语言模型(LLM)的代理,它通过整合语言处理技能,能在交通模拟器SUMO中生成抽象和现实世界的模拟场景,主要通过LLM处理用户输入并转换为关键词以运行Python脚本,进而创建模拟环境,最终由LLM解释模拟输出,用户无需专业知识即可交互生成定制化场景,例如在奥尔巴尼市实现了96%准确度的现实模拟。

Paper114 AutoGeo: Automating Geometric Image Dataset Creation for Enhanced Geometry Understanding

摘要小结: 本文提出了AutoGeo方法,能自动生成数学几何图像,构建了包含10万高质量几何图像-文本对的AutoGeo-100k数据集,实验证明该数据集可提升多模态大语言模型处理几何图像的能力,为教育和研究领域的AI工具发展铺平道路。

Paper115 Agents in Software Engineering: Survey, Landscape, and Vision

摘要小结: 这篇论文是首份深入研究将大型语言模型(LLMs)与软件工程(SE)领域结合的调研,特别是关注了LLM-based agents的应用,提出了一个包含感知、记忆和行动三个关键模块的LLM-based agents框架,并总结了当前挑战及未来机遇。

Paper116 AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents

摘要小结: 本文提出了AI-LieDar框架,研究LLM-based代理如何在多轮互动设置中处理实用性与真实性冲突的场景,通过设计一系列现实场景和开发一个基于心理学的真实性检测器,实验显示所有模型真实性不足50%,且模型可能会遵循恶意指令欺骗,强调了确保LLM和AI代理安全可靠部署的重要性。主要工作总结为:研究并揭示了LLM在实用性真实性冲突场景下的复杂性质。

Paper117 Contri(e)ve: Context + Retrieve for Scholarly Question Answering

摘要小结: 本文提出了一个两步解决方案,使用开源的大型语言模型LLM(Llama3.1),针对学术领域的Scholarly-QALD数据集进行问题回答。首先从不同结构化和非结构化数据源提取与问题相关的内容,然后通过提示工程提升LLM的信息检索性能,实现了40%的F1分数,并讨论了LLM产生的一些异常响应。

Paper118 SGFormer: Single-Layer Graph Transformers with Approximation-Free Linear Complexity

摘要小结: 本文针对图上的表示学习提出了一种简化的单层图Transformer模型(SGFormer),通过分析包含全对注意力与图传播的混合传播层,证明了多层传播可以简化为单层传播而保持表示学习能力,SGFormer的主要组成部分是单个全局注意力层,可线性扩展至图大小且无需近似处理全对交互,实验显示SGFormer在大型图上能显著提高推理速度且在有限标注数据上具有竞争力。

Paper119 Safeguarding Decentralized Social Media: LLM Agents for Automating Community Rule Compliance

摘要小结: 本段摘要介绍了一项工作,该工作评估了基于Open-LLMs构建的六个AI代理在去中心化社交网络中自动检查规则合规性的效果,通过分析超过5万条来自数百个Mastodon服务器的帖子,发现AI代理能有效检测不合规内容,理解语言细微差别,并适应不同的社区环境,且大部分代理显示出高互评可靠性和评分一致性,人类专家评估也确认了其可靠性和实用性,表明这些AI代理是半自动化或人在回路内容审核系统中的有前景工具。

Paper120 Emerging Reliance Behaviors in Human-AI Text Generation: Hallucinations, Data Quality Assessment, and Cognitive Forcing Functions

摘要小结: 本研究探讨了在人类-AI协作文本生成任务中,幻觉和认知强迫功能的影响,特别是使用大型语言模型(LLMs)辅助生成高质量对话数据的情况;研究发现幻觉会负面影响数据质量,认知强迫功能虽然不总能缓解这种负面影响,但两者结合会影响数据质量和用户对AI响应的使用,强调了在对话AI中管理AI生成内容中的幻觉的重要性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值