LLM应用领域概览(121-150)
这些研究涵盖了从医疗健康、教育与数据素养、多模态任务、机器人与任务规划,到自动语音识别、系统与架构优化等多个方向。LLMs在不同领域中的应用展示了强大的创新能力和适应性,推动了技术发展和实际应用场景的变革。
1. 医疗与健康领域
- 合成医学记录基准 (Paper121): SynSUM基准数据集通过合成患者记录促进临床信息提取研究。
- 心电图报告生成 (Paper133): ECG-ReGen通过自我监督学习生成心电图报告并回答问题。
- 泰国医疗模型 (Paper146): Eir-8B通过专门设计的LLM提高泰国语医疗任务的准确性。
- 抑郁检测 (Paper148): 利用BERT-based模型通过文本摘要检测抑郁,显著提高诊断精确度。
2. 多模态与视觉任务
- 图表理解能力评估 (Paper125): 探索LLMs在节点、边和图表层面处理图表数据的能力。
- 多模态推荐系统 (Paper145): ATFLRec集成音频和文本模态,提升LLM推荐性能。
- 激光雷达导航 (Paper147): 结合LLM作为副驾驶提升机器人导航系统的信息整合和环境理解能力。
- 视觉语言令牌剪枝 (Paper150): VLTP通过令牌剪枝机制加速ViT分割模型,提高效率。
3. 教育与数据素养
- 数据素养教育VR应用 (Paper134): DataliVR通过ChatGPT增强VR数据素养学习环境,提升教育效果。
- 知识捕捉与评估 (Paper137): L3Cube-IndicQuest评估多语言LLMs在印地语区域知识的理解能力。
4. 数据处理与生成系统
- 检索增强生成系统 (Paper128): 利用RAG生成科学论文的胜任力问题,提高知识库生成质量。
- 生成代码评估 (Paper138): 提出B4策略选择最佳代码解决方案,提升代码生成性能。
- 多步推理提升 (Paper139): CPL方法通过MCTS和Step-APO提升LLM的多步推理能力。
5. 机器人与任务规划
- 双足机器人任务执行 (Paper123): AnyBipe框架利用LLMs训练和部署双足机器人强化学习策略。
- 共享工作空间中的人机协作 (Paper130): 研究AI代理在实时共享工作空间中如何与人类协作,探讨了AI的Theory of Mind能力对团队表现的影响。
6. 法律与政策应用
- 生成胜任力问题 (Paper128): 使用RAG生成科学领域的胜任力问题。
- 共享微调模型的风险 (Paper149): 探索微调扩散模型权重共享可能导致的隐私泄露问题。
7. 食谱优化与社交动态
- 食材替代优化 (Paper132): 利用LLMs微调优化食谱中食材替代,增强植物化学物含量。
- 社交意见动态模拟 (Paper136): FDE-LLM算法模拟社交媒体用户观点演化,提高模拟准确性和效率。
8. 自动语音识别与多说话人场景
- 检索增强生成提升ASR (Paper140): LA-RAG通过检索增强生成范式提高自动语音识别的准确性。
- 多说话人语音转录 (Paper141): MT-LLM首次探索LLMs在多说话人环境下的语音转录能力。
9. 系统与架构优化
- 指纹向量添加技术 (Paper126): FP-VEC通过指纹向量无缝整合到LLMs中,保持模型正常行为。
- 迭代偏好优化改进 (Paper127): AIPO方法优化Iterative Preference Optimization,提高模型对齐性能。
- 多领域职业考试评估 (Paper142): IndoCareer数据集用于评估LLMs在多领域职业认证考试中的表现。
- 链式思维解码优化 (Paper143): 提出隐藏链式思维解码,以降低计算成本和延迟。
Paper121 SynSUM – Synthetic Benchmark with Structured and Unstructured Medical Records
摘要小结: 本文介绍了SynSUM基准,这是一个将未结构化的临床笔记与结构化的背景变量相链接的合成数据集,包含10,000个人工患者记录,通过专家基于领域知识构建的贝叶斯网络生成,旨在促进临床信息提取研究,并可用于临床推理自动化、因果效应估计以及多模态合成数据生成等研究。
Paper122 LLM-based Weak Supervision Framework for Query Intent Classification in Video Search
摘要小结: 该研究工作针对流媒体服务中用户搜索查询理解的挑战,提出了一种利用大型语言模型(LLMs)通过弱监督自动标注大量用户搜索查询的新方法,通过提示工程和多种LLM角色生成符合人类标注者期望的训练数据,并结合链式思维和上下文学习来训练低延迟模型以优化实时推理,实验证明该方法在召回率上平均相对提升了113%,且其创新的提示工程框架显著提高了LLM生成数据的质量,使得LLM预测与人类标注的F1分数加权一致性提高了47.60%,此外,其角色选择机制进一步增加了3.67%的加权F1分数。
Paper123 AnyBipe: An End-to-End Framework for Training and Deploying Bipedal Robots Guided by Large Language Models
摘要小结: 本文提出了一种端到端的框架,用于训练和部署由大型语言模型(LLMs)指导的强化学习(RL)策略,特别是在双足机器人上完成任务,该框架包括三个模块:LLM指导的奖励函数设计、RL训练以及模拟到现实的同态评估,显著减少了人类干预,并展示了其自主开发和优化控制策略的能力。
Paper124 A Market for Lemons? Strategic Directions for a Vigilant Application of Artificial Intelligence in Entrepreneurship Research
摘要小结: 该研究指出,随着AI技术的广泛应用和大数据的普及,创业学研究领域正面临重大变革,但同时存在知识交换不生产性的风险,尤其是由于AI方法的黑箱特性和创业现象本身的不确定性导致的“双黑箱”问题,可能会产生“市场柠檬化”效应,影响学科的健康和声誉。文章提出了降低这些风险的策略和指导,以提升AI时代创业学研究的集体影响力和相关性。
Paper125 Exploring Graph Structure Comprehension Ability of Multimodal Large Language Models: Case Studies
摘要小结: 该研究主要探讨了多模态大型语言模型(LLMs)在处理图表数据时的性能,通过在节点、边和图表层面的一系列基准任务中,比较了仅文本的图表表示和多模态方法(结合文本和视觉表示)的有效性,结果表明利用视觉图表模态增强LLMs的图表结构理解能力的潜力和局限性。
Paper126 FP-VEC: Fingerprinting Large Language Models via Efficient Vector Addition
摘要小结: 本文提出了FP-VEC方法,通过使用指纹向量作为一种高效的大语言模型(LLM)指纹技术,该方法能够在不增加成本和可扩展性的情况下,将指纹嵌入到LLM中,通过向量添加无缝地整合到无限数量的LLM中,同时保持模型的正常行为,且可以在仅CPU设备上运行。
Paper127 AIPO: Improving Training Objective for Iterative Preference Optimization
摘要小结: 该研究提出了一种名为Agreement-aware Iterative Preference Optimization (AIPO)的方法,旨在解决Iterative Preference Optimization (IPO)中存在的长度利用问题,并在大型语言模型(LLMs)对齐中作为PPO的替代。研究通过合成数据进行迭代偏好优化,分析了长度利用问题,并展示了AIPO在MT-Bench、AlpacaEval 2.0和Arena-Hard上的最先进性能。
Paper128 A RAG Approach for Generating Competency Questions in Ontology Engineering
摘要小结: 本文提出了一种检索增强生成(RAG)方法,利用大型语言模型(LLMs)自动生成给定一组科学论文的胜任力问题(CQs),这是基于将这些论文视为领域知识库,研究了不同论文数量和LLM温度设置对RAG的影响,并通过GPT-4在两个领域本体工程任务上进行实验,结果表明,与零样本提示相比,将相关领域知识添加到RAG中可提高LLMs生成CQs的性能。
Paper129 Your Weak LLM is Secretly a Strong Teacher for Alignment
摘要小结: 本研究探讨了使用资源消耗较少的弱大型语言模型(LLM)作为中间方案,该模型能够提供比纯人工反馈更多的自动化,但比顶级模型资源需求显著降低,以实现模型对齐;研究发现,弱LLM生成的反馈质量可媲美甚至超过纯人工标注数据,表明模型大小对反馈效果的影响较小,为可扩展和可持续的对齐策略提供了新见解。
Paper130 Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task
摘要小结: 本研究探讨了在实时共享工作空间任务中,具有Theory of Mind (ToM)能力的AI代理与人类协作时, Mutual Theory of Mind (MToM)对人类-AI团队(HATs)的影响,发现AI的ToM能力虽不显著提升团队表现,但能增强人类对AI的理解和被理解感,同时指出双向沟通可能降低HATs的性能。
Paper131 LLaQo: Towards a Query-Based Coach in Expressive Music Performance Assessment
摘要小结: 本研究提出了LLaQo,这是一个基于大型语言模型的音乐教练,它利用音频语言建模来提供对音乐表演的详细和形成性评估,同时引入了涵盖多种表演维度的指令调整查询响应数据集,并使用AudioMAE编码器和Vicuna-7b LLM后端实现了SOTA结果,能有效预测教师表演评级和识别作品难度及演奏技巧,用户研究也显示其文本响应显著优于其他基线模型。
Paper132 Optimizing Ingredient Substitution Using Large Language Models to Enhance Phytochemical Content in Recipes
摘要小结: 本研究通过微调包括OpenAI的GPT-3.5、DaVinci和Meta的TinyLlama在内的大型语言模型,探索了它们在优化食谱中食材替代以增强餐食中的植物化学物含量的应用,提高了替代任务的准确度,并创建了数千个富含植物化学物的食材组合和独特食谱,为使用AI促进更健康饮食习惯提供了潜在路径,但需注意结论基于预临床证据,未来需临床验证。
Paper133 Electrocardiogram Report Generation and Question Answering via Retrieval-Augmented Self-Supervised Modeling
摘要小结: 该研究提出了ECG-ReGen,这是一种基于检索的方法,用于心电图(ECG)到文本报告的生成和问题回答,通过自我监督学习对ECG编码器进行优化,结合预训练、动态检索和大型语言模型(LLM)精炼,有效分析ECG数据并回答相关问题,实验显示在报告生成方面表现出色,并且在零样本问题回答上与全监督方法竞争,为准确ECG解释提供了可扩展和高效的解决方案。
Paper134 DataliVR: Transformation of Data Literacy Education through Virtual Reality with ChatGPT-Powered Enhancements
摘要小结: 该研究介绍了DataliVR,这是一个创新的VR应用程序,旨在通过集成ChatGPT这样的大型语言模型作为虚拟化身中的对话AI聊天机器人,来增强大学学生在情境化和游戏化的虚拟学习环境中的数据素养技能;研究通过实验方法证明了ChatGPT驱动的DataliVR在促进数据素养技能方面的有效性和用户友好性,并探讨了基于ChatGPT的AI聊天机器人对用户学习和成果的显著影响,为数据素养教育的数字化发展提供了重要贡献。
Paper135 Distilling Monolingual and Crosslingual Word-in-Context Representations
摘要小结: 本研究提出了一种方法,可以在单语和跨语种设置中从预训练的掩码语言模型中提炼出词汇在上下文中的意义表示,该方法不需要人类注释的语料库也不需要更新预训练模型的参数,通过自注意力机制学习结合预训练模型的不同隐藏层输出,仅需要自动生成的语料库进行训练,并在多个基准任务上进行了广泛实验,结果显示在单语任务中表现竞争性,在STS估计中超越前人研究,在跨语种任务中显著提升了多语言预训练模型的表示。
Paper136 Fusing Dynamics Equation: A Social Opinions Prediction Algorithm with LLM-based Agents
摘要小结: 本文提出了一种创新的模拟社交媒体用户观点动态的方法FDE-LLM算法,该方法结合了观点动态和流行病模型,有效约束了大语言模型的行为和观点演化过程,特别是在将用户分类为意见领袖和追随者方面,提高了模拟的准确性和效率,并通过实验验证了其相较于传统算法的优势。
Paper137 L3Cube-IndicQuest: A Benchmark Questing Answering Dataset for Evaluating Knowledge of LLMs in Indic Context
摘要小结: 这篇论文介绍了L3Cube-IndicQuest,这是一个用于评估多语言大型语言模型在多种印地语中捕捉区域知识的能力的金标准问答基准数据集,包含200个问题-答案对,涵盖英语和19种印地语,聚焦五个特定于印地地区的领域,旨在作为评估LLM在印度背景下知识理解和表现性能的基准。
Paper138 B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests
摘要小结: 该研究主要工作是在代码生成中提出了一种新的策略B4,用于从多个生成的代码解决方案中选择最佳方案,尤其是在测试用例也不可靠的情况下。研究通过Bayesian框架定义了最优选择策略,并将其作为整数编程问题,同时提出了一种有效的方法来近似这个最优策略,该方法在理论上超越了现有启发式策略,并在实践中提高了选择最佳代码解决方案的性能,最高可提升50%相对于最强启发式策略和246%相对于随机选择。
Paper139 CPL: Critical Planning Step Learning Boosts LLM Generalization in Reasoning Tasks
摘要小结: 本文提出了Critical Planning Step Learning (CPL)方法,通过利用Monte Carlo Tree Search (MCTS)来探索多步推理任务中的多样化规划步骤,并学习步骤级规划偏好以提升模型的一般推理能力;同时,作者还提出了Step-level Advantage Preference Optimization (Step-APO)来改进Direct Preference Optimization,进一步提升了模型在多步推理任务中的泛化能力,并在多个数据集上验证了方法的有效性。
Paper140 LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation
摘要小结: 该研究提出了LA-RAG,一种新型的检索增强生成(RAG)范式,用于基于大型语言模型(LLM)的自动语音识别(ASR),通过利用细粒度的token级语音数据存储和语音到语音检索机制,在多种语音条件下提升ASR准确率,尤其是在处理口音变化上,实验证明其在普通话和多种中国方言数据集上显著优于现有方法。
Paper141 Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions
摘要小结: 本段摘要的主要工作是提出了一个名为MT-LLM的系统,这是首次探索大型语言模型(LLM)在多说话人环境下的语音转录能力,能够根据多说话人自动语音识别等多样化指令进行操作,并通过WavLM和Whisper编码器提取多方面的语音表征,进而通过LoRA进行微调,展示在鸡尾酒会场景中的潜力。
Paper142 Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia
摘要小结: 本文介绍了IndoCareer数据集,包含8834个多选问题,用于评估大型语言模型在六个关键行业领域的职业和专业认证考试中的表现,研究发现这些模型在具有强本地语境的领域如保险和金融表现不佳,同时随机打乱答案选项在整体上保持了模型评估的稳定性,但在保险和金融领域引入了不稳定性。
Paper143 Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding
摘要小结: 该研究提出了一种通过语义对齐压缩链式思维(CoT)过程的新方法,以降低计算成本和延迟,同时保持CoT推理的优势。通过训练一个辅助的CoT模型来生成压缩的特殊令牌表示,并将此表示集成到隐藏CoT模型的输入中,实验表明这种方法在保持性能的同时,至少能将解码时间加快1.5倍。
Paper144 LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study
摘要小结: 本文主要评估了大型语言模型(LLMs)在音素转换(G2P)任务中的表现,并提出了提示和后处理方法来提升LLMs的输出质量,无需额外训练或标注数据,同时还介绍了用于评估波斯语句子级别音素挑战的基准数据集,结果显示应用这些方法后,LLMs能超越传统G2P工具,特别是在波斯语这样的代表性不足的语言中。
Paper145 ATFLRec: A Multimodal Recommender System with Audio-Text Fusion and Low-Rank Adaptation via Instruction-Tuned Large Language Model
摘要小结: 该研究主要提出了ATFLRec框架,通过集成音频和文本模态到多模态推荐系统中,并使用Low-Rank Adaptation (LoRA)提高效率,旨在增强大型语言模型(LLM)的推荐性能,研究显示ATFLRec优于传统模型,并通过不同LoRA配置和模态融合技术显著提升了AUC分数。
Paper146 Eir: Thai Medical Large Language Models
摘要小结: 本研究介绍了Eir-8B,这是一个具有8亿参数的大型语言模型,专门设计用于提高处理泰国语医疗任务的准确性,它为医疗专业人员和患者提供清晰易懂的答案,以提升诊断和治疗效率;模型经过人类评估,确保符合护理标准且提供无偏见答案,部署在医院内部网络中以保障数据安全。Eir-8B在多个医疗基准测试中表现优于其他开源模型和商业模型,尤其在18个临床任务中的表现超过GPT-4o。
Paper147 Intelligent LiDAR Navigation: Leveraging External Information and Semantic Maps with LLM as Copilot
摘要小结: 该研究提出使用osmAG这一创新的语义拓扑层次地图表示方法,结合大型语言模型(LLMs)作为机器人在导航中的实际副驾驶,以桥接ROS move_base的能力与LLMs提供的环境理解之间的差距,使机器人导航系统能够整合更广泛的信息输入,同时保持传统机器人导航系统的鲁棒性。
Paper148 A BERT-Based Summarization approach for depression detection
摘要小结: 本研究通过利用机器学习和人工智能技术,自主检测来自多样化数据源的抑郁指标,提出使用BERT-based模型将文本转换为数值表示,并通过文本摘要作为预处理技术来降低输入文本的长度和复杂性,显著提高了抑郁诊断的精确度;在DAIC-WOZ数据集上,采用此方法的研究框架在特征提取和分类上取得了超越先前所有基准的F1分数,并创建了一个抑郁词汇表来评估摘要的质量和相关性,为抑郁检测的持续研究提供了有价值的资源。
Paper149 Risks When Sharing LoRA Fine-Tuned Diffusion Model Weights
摘要小结: 本文研究了在实际设置中,当仅共享模型权重时,微调后的扩散模型是否存在隐私泄露问题,并通过设计一个变分网络自编码器来重构私人图像,发现敌手可以生成包含私人图像相同身份的图像,且现有的防御方法无法在不牺牲模型效用的情况下保护隐私。
Paper150 VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation
摘要小结: 这篇工作提出了Vision Language Guided Token Pruning (VLTP),这是一种新型令牌剪枝机制,能够加速基于Vision Transformers (ViT)的分割模型,尤其是在任务导向分割(TOS)中,通过多模态大型语言模型(MLLM)引导,通过设计新的剪枝解码器,仅让与任务相关的图像令牌通过ViT的更深层,从而减少了ViT的计算成本,约25%无性能下降,约40%仅有1%性能下降。