计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-03

sp_fyf_2024

于 2024-10-04 10:10:18 发布

阅读量505

点赞数 14

分类专栏：计算机前沿技术大语言模型文章标签：人工智能算法语言模型自然语言处理计算机视觉机器学习

本文链接：https://blog.csdn.net/fyf2007/article/details/142699916

版权

计算机前沿技术同时被 2 个专栏收录

44 篇文章 1 订阅

订阅专栏

大语言模型

41 篇文章 0 订阅

订阅专栏

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-03

1. A Scalable Data-Driven Framework for Systematic Analysis of SEC 10-K Filings Using Large Language Models

Authors: Syed Affan Daimi, Asma Iqbal
https://arxiv.org/abs/2409.17581
可扩展的数据驱动框架，用于系统分析SEC 10-K文件，利用大型语言模型

摘要

随着在纽约证券交易所上市的公司数量呈指数级增长，市场分析师、交易员和股东需要定期监控和评估大量公司的表现和战略转变，面临着重大挑战。提出了一种新颖的数据驱动方法，利用大型语言模型（LLMs）系统地分析和评估基于其SEC 10-K文件的公司表现。这些文件提供了公司财务表现和战略方向的详细年度报告，是评估公司健康状况各个方面（包括信心、环境可持续性、创新和劳动力管理）的丰富数据源。此外，介绍了一个自动化系统，用于提取和预处理10-K文件。该系统能够准确识别并分割SEC概述所需的部分，同时隔离包含有关公司关键信息的关键文本内容。然后将这些策划的数据输入到Cohere的Command-R+ LLM中，生成各种绩效指标的量化评级。这些评级随后被处理和可视化，以提供可操作的洞察。提出的方案随后在交互式GUI上实现，作为运行数据管道和创建可视化的无代码解决方案。应用程序展示了评级结果，并提供了公司表现的年度比较。

研究背景

在现代商业的快节奏世界中，市场分析师、投资者和决策者面临着有效评估和比较多家公司表现的挑战。传统上，这一过程涉及筛选大量的财务文件和定性报告，通常需要大量的时间和专业知识。尽管这些传统方法提供了宝贵的洞察，但它们通常导致叙述性分析而不是容易消化的指标，这使得快速评估和比较多家公司的表现变得困难。

问题与挑战

数据量庞大：在主要证券交易所上市的公司数量众多，进行详细分析既耗时又昂贵。
分析方法传统：传统财务分析方法耗时长，难以快速比较不同公司的表现。
需要新的评估工具：需要一种更有效、可扩展的“试金石”解决方案，能够快速提供公司表现的量化洞察。

如何解决

提出了一种新颖的数据驱动方法，利用大型语言模型（LLMs）来系统地分析和评估公司的SEC 10-K文件。通过自动化提取和处理这些文件，将定性公司披露转化为可操作的量化评级。
在这里插入图片描述

创新点

自动化提取和预处理：开发了自动化系统来提取和预处理10-K文件。
利用大型语言模型：使用Cohere的Command-R+ LLM生成各种绩效指标的量化评级。
无代码解决方案：开发了一个交互式GUI，用户无需技术专长即可实施系统、分析数据和可视化结果。

算法模型

Cohere的Command-R+ LLM：用于生成公司表现的量化评级。
数据清洗和提取：使用正则表达式和文本处理库（如unstructured-io）来提取和组织叙事内容。

实验效果

绝对分析：对三家主要上市公司（Royal Gold、IBM和Apple）进行了测试，生成了0-2之间的年度评级。
相对分析：对10-K文件的六个部分进行了相对分析，记录了LLM评级。
可视化：通过交互式GUI展示了评级结果，并提供了公司表现的年度比较。

重要数据与结论

可视化结果：展示了公司在信心、环境、创新和人才等方面的表现变化。
相对分析：通过比较不同公司的10-K文件部分，展示了公司在不同类别中的相对表现。

2. AI Delegates with a Dual Focus: Ensuring Privacy and Strategic Self-Disclosure

Authors: Xi Chen, Zhiyang Zhang, Fangkai Yang, Xiaoting Qin, Chao Du, Xi Cheng, Hangxin Liu, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
https://arxiv.org/abs/2409.17642

AI代表的双重焦点：确保隐私和战略性自我披露

摘要

基于大型语言模型（LLM）的AI代表越来越多地被用来代表用户执行任务，通过会话界面协助他们完成广泛的任务。尽管它们具有优势，但涉及到社交互动的场景时，隐私泄露的潜在风险尤其令人担忧。现有的研究集中在通过限制AI代表访问用户敏感信息来保护隐私，但许多社交场景要求透露私人细节以实现期望的结果，这就需要在隐私保护和披露之间取得平衡。为了应对这一挑战，我们进行了一项初步研究，调查了用户在不同的社交关系和任务场景中对AI代表的偏好，然后提出了一个新的AI代表系统，它支持隐私意识的自我披露。我们的用户研究表明，所提出的AI代表在多样化和动态的社交互动中战略性地保护隐私。

研究背景

AI已被用来代表用户规划和执行简单任务。随着大型语言模型（LLMs）的出现，AI的能力得到了增强，开辟了开发强大的AI代理以管理更复杂任务的可能性。近期的研究正在开发能够处理高度自治场景的AI代表，例如代表用户参加会议、提供技术支持和咨询、阅读和回复电子邮件。AI代表在没有直接用户监督的情况下自主执行任务，引发了对隐私泄露的严重担忧。

问题与挑战

AI代表在执行社交任务时可能需要透露私人信息以实现社交目标，这与隐私保护的需求相冲突。现有的隐私保护方法通常将AI代表置于被动地位，以尽量减少隐私泄露的机会，但在实际社交对话中，这种被动行为并不总是理想的。

如何解决

研究团队进行了用户研究，以调查用户在社交互动中对AI代表的接受态度，并提出了一个新的AI代表系统，以在被动和主动自我披露场景中增强对意外隐私泄露的保护。这个AI代表会根据对话的背景、双方的关系以及双方的舒适度来选择合适的披露策略，确保对话保持尊重并相互丰富。

创新点

用户研究：进行了深入的用户研究，以了解用户在社交互动中对AI代表的接受态度。
AI代表系统：设计了一个具有双重焦点的AI代表，以在被动和主动自我披露场景中确保隐私。
多代理框架：基于多代理框架构建AI代表，其中包括评估对话目标、根据个人差异、社交规范和上下文信息调整对话策略、平衡自我披露的效用和风险等多个代理。

算法模型

多代理系统：包含情境评估器、隐私检索器、策略制定者和回应者。
情境评估器：分析当前对话的背景，包括用户和对话伙伴的社交关系。
策略制定者：根据用户定义的规则、用户个性和社交规范来决定信息披露的深度、广度和时机。
隐私检索器：作为保护用户隐私的保障，防止AI代表被劫持或泄露。
回应者：生成与策略报告一致的回应，包括回应风格、上下文和披露时机。

在这里插入图片描述

实验效果

用户研究：通过调查问卷收集了70名参与者对AI代表在不同场景中的接受程度。
LLM基评估：使用LLM生成的对话上下文对AI代表进行了评估，包括被动和主动自我披露场景。
结果：所提出的AI代表在保护隐私和对话适当性方面表现更好。

在这里插入图片描述

重要数据与结论

用户研究：显示了用户对AI代表在不同社交关系和任务场景中的接受程度。
LLM基评估：所提出的AI代表在被动对话中的隐私保护和上下文一致性方面得分更高。
主动自我披露策略：所提出的AI代表能够采用与用户偏好更一致的自我披露策略。

3. Digital Twin Ecosystem for Oncology Clinical Operations

Authors: Himanshu Pandey, Akhil Amod, Shivang, Kshitij Jaggi, Ruchi Garg, Abheet Jain, Vinayak Tantia
https://arxiv.org/abs/2409.17650
在这里插入图片描述
数字孪生生态系统在肿瘤临床操作中的应用

摘要

人工智能（AI）和大型语言模型（LLMs）在医疗保健领域，特别是在临床应用中具有革命性的前景。与此同时，数字孪生技术通过模拟复杂系统来增强患者护理，已逐渐受到关注。尽管在实验性临床环境中取得了进展，但AI和数字孪生在简化临床操作方面的潜力基本上还未被开发。本文介绍了一个专门设计的用于增强肿瘤临床操作的新型数字孪生框架。我们提出了将多个专门的数字孪生集成，例如医学必要性孪生、护理导航孪生和临床历史孪生，以提高工作流程效率，并根据患者的独特数据个性化护理。此外，通过综合多个数据源并将其与国家综合癌症网络（NCCN）指南对齐，我们创建了一个动态的癌症护理路径——一个不断发展的知识库，使这些数字孪生能够提供精确、定制的临床建议。

研究背景

提供最佳的肿瘤护理面临着许多挑战，这使得医疗保健提供者在决策变得复杂。尽管电子健康记录（EHRs）包含大量的患者数据，但通常没有用户友好的工具可以轻松访问患者的完整治疗和药物历史。这种缺乏可访问性使得提供者难以审查过去的治疗，并对未来的护理做出明智的决策。此外，将患者的特定状况与国家综合癌症网络（NCCN）指南对齐构成了另一个挑战。

问题与挑战

尽管EHRs包含大量患者数据，但缺乏易于访问患者完整治疗和药物历史的用户友好工具。此外，将患者的具体情况与NCCN指南个性化对齐也是一个挑战。

如何解决

提出了一个数字孪生框架，通过集成多个专门的数字孪生，如医学必要性孪生、护理导航孪生和临床历史孪生，来增强工作流程效率和个性化护理。

创新点

数字孪生框架：提出了一个专门设计的用于增强肿瘤临床操作的新型数字孪生框架。
癌症护理路径：创建了一个动态的癌症护理路径，作为一个不断发展的知识库，使数字孪生能够提供精确、定制的临床建议。
多模态输入和先进的机器学习技术：利用多模态数据输入和先进的机器学习技术，为复杂的临床决策提供支持。

算法模型

癌症护理路径：作为知识图谱或决策树，概述了癌症患者的理想护理流程。
数字孪生框架：定义了数字孪生的结构和功能，包括各种能力和输入以及它们与其他代理的交互和协作。

实验效果

医学必要性孪生：在自动化确定医学必要性方面实现了86%的准确率。
临床历史孪生：通过从患者的EHR中提取结构化和非结构化数据，以清晰的时间序列方式呈现，帮助医疗保健提供者快速、高效地解释护理进展。

重要数据与结论

数字孪生生态系统通过提供先进的数据分析、临床指南和实时决策支持，帮助提高患者护理质量。这些数字孪生形成一个协作系统，在患者的治疗的每个阶段支持医疗保健提供者做出明智的、基于证据的决策。

4. Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy

Authors: Owen Henkel, Hannah Horne-Robinson, Maria Dyshel, Nabil Ch, Baptiste Moreau-Pernet, Ralph Abood
https://arxiv.org/abs/2409.17904
在数学评估中学会喜欢边缘情况：使用AMMORE数据集和思维链提示来提高评分准确性

摘要

本文介绍了AMMORE数据集，这是一个包含53,000个数学开放性问题-答案对的新数据集，来自Rori，这是一个在非洲多个国家被学生使用的在线学习平台。文章进行了两个实验来评估大型语言模型（LLM）在评分特别具有挑战性的学生答案方面的使用情况。AMMORE数据集支持各种潜在分析，并为研究学生在未被充分研究的现实世界教育环境中的数学习得提供了重要资源。在实验1中，我们使用了多种LLM驱动的方法，包括零样本、少样本和思维链提示，来评分规则基础分类器无法准确评分的1%学生答案。我们发现，表现最好的方法——思维链提示——准确评分了92%的这些边缘情况，有效地将整体准确率从98.7%提高到99.9%。在实验2中，我们旨在更好地理解提高评分准确性的后果有效性，通过将最佳表现的LLM基础方法生成的评分传递给贝叶斯知识追踪（BKT）模型，该模型估计学生对特定课程的掌握情况。我们发现，模型在单个问题级别的相对适度的准确性提高可以导致对学生掌握的估计发生显著变化。目前用于评分学生答案的基于规则的分类器在完成的课程中错误分类了6.9%的学生的掌握状态，而使用LLM思维链方法，这一错误分类率降低到了2.6%的学生。总体而言，这些发现表明LLM可以成为K-12数学教育中评分开放性问题的一个有价值工具，可能有助于鼓励在形成性评估中更广泛地采用开放性问题。

研究背景

形成性评估和反馈是学习过程中至关重要的组成部分，它们使得学生和教育者能够在课内外调整方法以最大化学习效果。封闭性问题，如选择题和是非题，在形成性评估中常用，它们的优点在于评分效率高，可以提供即时反馈。然而，它们也存在一些缺点，比如学生可能依赖于考试策略、可能缺乏表面效度，以及生成多个答案选项的复杂性。相比之下，开放式和简答题需要学生用自己的话来回答，通常用几句话。许多研究者认为，开放式问题减少了考试策略的影响，具有更大的表面效度，并且可能更适合评估正在评估的技能的某些子过程。

问题与挑战

开放式问题的评分过程可能非常耗费资源和昂贵，这限制了它们的广泛使用。虽然教育者可能更喜欢他们可以从开放式问题中学生回答中获得的信息类型，但繁琐的评分过程可能会给教育者带来沉重负担，并可能影响反馈的质量，这可能会限制学生对主题的理解和批判性参与。

如何解决

文章提出了一个基于LLM的方法，特别是思维链提示，来提高对开放式数学问题答案的评分准确性。

创新点

AMMORE数据集：提供了一个新的数据集，包含非洲西部地区学生对中学数学问题的回答。
思维链提示：使用LLM进行评分时采用思维链提示，提高了对边缘情况的评分准确性。

算法模型

LLM基础方法：包括零样本、少样本和思维链提示。
贝叶斯知识追踪（BKT）模型：用于估计学生对特定课程的掌握情况。

实验效果

实验1：思维链提示方法准确评分了92%的边缘情况，将整体准确率从98.7%提高到99.9%。
实验2：使用LLM思维链方法，学生掌握状态的错误分类率从6.9%降低到了2.6%。

重要数据与结论

通过提高模型在单个问题级别的准确性，可以显著改变对学生掌握的估计。LLM基础的评分可以鼓励在形成性评估中更广泛地采用开放式问题。

5. Role-RL: Online Long-Context Processing with Role Reinforcement Learning for Distinct LLMs in Their Optimal Roles

Authors: Lewei He, Tianyu Shi, Pengran Huang, Bingzhi Chen, Qianglong Chen, Jiahui Pan
https://arxiv.org/abs/2409.18014
代码: https://anonymous.4open.science/r/Role-RL.
在这里插入图片描述

Role-RL: 在线长上下文处理中，通过角色强化学习为不同的LLMs分配最佳角色

摘要

长上下文处理的大型语言模型（LLMs）由于其实现复杂性、训练效率和数据稀疏性而面临挑战。文章提出了一种新的范式——在线长上下文处理（OLP），用于处理无限长度的文档，这通常出现在各种流媒体的信息接收和组织中，如自动化新闻报道、直播电商和病毒式短视频。此外，文章还开发了角色强化学习（Role-RL），以根据它们的真实表现自动将不同的LLMs部署到OLP管道中的相应角色。通过在OLP-MINI数据集上的广泛实验，发现带有Role-RL框架的OLP在平均召回率达到93.2%的同时，节省了79.4%的LLM成本。

研究背景

大型语言模型（LLMs）已成为提高生产效率和推进对人类语言理解的关键工具。随着计算语言学的显著进步，越来越多的LLMs迅速成为研究的前沿。然而，与此相关的问题也变得更加突出，即选择最适合给定任务的LLM。不同的LLMs由于训练数据集的差异，在性能、成本和响应延迟方面各有优劣。

问题与挑战

选择最适合特定任务的LLM是一个挑战，因为不同的LLM在对话QA任务、代码生成任务、比较推理任务以及个性方面有不同的表现。此外，处理流媒体无限长度的长上下文也是一个挑战，尤其是在需要实时输出的场景中。

如何解决

文章提出了在线长上下文处理（OLP）管道和角色强化学习（Role-RL）框架，以优化不同LLMs在长上下文处理中的作用。

创新点

在线长上下文处理（OLP）：提出了一个新的处理无限长度文档的范式。
角色强化学习（Role-RL）：开发了一种自动部署不同LLMs到其各自角色的方法，以提高整体性能。

算法模型

OLP管道：包含六个明确定义的角色（主题查找器、主题定位器、关系检查器、内容组织器、格式检查器和块分割器），它们协同工作以从无限长度的上下文中提取有用信息。
Role-RL框架：由LLM池、LLM咨询委员会和由强化学习驱动的角色管理器组成，根据LLM的实际表现自动分配不同LLMs的角色。

实验效果

召回率：在OLP-MINI数据集上，平均召回率达到93.2%。
LLM成本节省：通过Role-RL框架，LLM成本节省了79.4%。

重要数据与结论

Role-RL框架通过强化学习过程，根据LLM的输出正确性、API成本和响应延迟来计算每个LLM获得的奖励，并据此放置合适的LLMs以提高整个系统的性能。实验结果表明，该框架在提高召回率和降低成本方面取得了显著效果。

6. Compositional Hardness of Code in Large Language Models – A Probabilistic Perspective

Authors: Yotam Wolf, Binyamin Rothberg, Dorin Shteyman, Amnon Shashua
https://arxiv.org/abs/2409.18028

大型语言模型中的代码组合难度 - 概率视角

摘要

在复杂分析任务（如代码生成）中，通常的做法是在整个模型的上下文窗口内对整个任务的解决方案进行采样。先前的工作表明，在模型的上下文中进行子任务分解（思维链），有助于解决这类任务。在本文中，我们指出了LLMs在同一个上下文窗口内执行多个子任务的能力存在局限性——即在上下文中组合的难度，这表明了在多智能体系统中分布式地分解问题的优势。组合的难度通过一个生成复杂度度量来量化，即至少采样一个正确解决方案所需的LLM生成次数。我们发现，在相同上下文中解决组合问题与在多个代理之间分配它的生成复杂度之间存在差距，并且随着解决方案长度的增加，这种差距呈指数级增长。我们从理论和实证两方面证明了我们的结果。

研究背景

大型语言模型（LLMs）在许多领域（如广泛的问题回答、写作辅助、教学等）已成为非常有效的问题解决工具。然而，它们的分析技能，如编码能力，发展缓慢。尽管LLMs在理论上可以通过子任务分解来解决任意复杂的分析问题，但在实践中，它们将受到有效上下文长度的限制。

问题与挑战

尽管理论上可能，但一些任务需要LLM进行任意长的链式思考才能解决。此外，LLMs在处理长上下文任务时面临挑战，尤其是在需要实时输出的场景中。

如何解决

文章提出了一种在线长上下文处理（OLP）管道和角色强化学习（Role-RL）框架，以优化不同LLMs在长上下文处理中的作用。

创新点

链式思考的局限性：指出了LLMs在同一个上下文窗口内执行多个子任务的能力存在局限性。
多智能体系统的优势：提出在多智能体系统中分布式地分解问题，可以提高解决问题的效率。

算法模型

生成复杂度度量：通过至少采样一个正确解决方案所需的LLM生成次数来量化组合的难度。
角色强化学习（Role-RL）：通过强化学习自动部署不同LLMs到其各自角色的方法。

实验效果

召回率：在OLP-MINI数据集上，平均召回率达到93.2%。
LLM成本节省：通过Role-RL框架，LLM成本节省了79.4%。

重要数据与结论

实验结果表明，在相同上下文中解决组合问题与在多个代理之间分配它的生成复杂度之间存在差距，并且随着解决方案长度的增加，这种差距呈指数级增长。

7. REAL: Response Embedding-based Alignment for LLMs

Authors: Honggen Zhang, Igor Molybog, June Zhang, Xufeng Zhao
https://arxiv.org/abs/2409.17169
在这里插入图片描述
REAL: 基于响应嵌入的对齐方法用于大型语言模型

摘要

本文提出了一种策略，通过从一组AI生成的响应中选择最具信息量的响应对进行标注，从而为直接偏好优化（DPO）采样高质量训练数据集。实验结果表明，选择不相似的响应对可以增强LLMs的直接对齐，同时减少继承的标注错误。研究还发现，专注于不太相似的对可以提高LLM对齐的效率，节省多达65%的标注工作。

研究背景

大型语言模型（LLMs）在经过大规模数据集预训练后，虽然能够生成各种问题的答案和解决方案，但也可能生成对人类无用或有害的内容。为了优化LLMs，需要进一步的训练步骤来使它们的响应与人类偏好对齐。

问题与挑战

现有的算法，如直接偏好优化（DPO），依赖于根据人类反馈排序的AI生成响应对。标注过程是AI对齐流程中最劳动密集和成本最高的部分，提高其效率将对AI发展产生显著影响。

如何解决

作者提出了一种新的方法，通过有效选择数据来增强DPO学习。该方法专注于在D中选择最信息丰富的样本子集进行训练。通过实验，作者发现选择不相似的响应对在多个指标上比其他方法（如随机选择或相似对）有更好的效果。

创新点

强调了在LLM训练中句子嵌入的重要性。
引入了高效的响应对选择策略，以获取高质量的数据。
实验表明，与人类偏好对齐更好的响应对在嵌入空间中是不相似的。

算法模型

直接偏好优化（DPO）：一种通过微调LLM来隐式奖励模型的方法。
响应嵌入：使用基于余弦相似度的嵌入空间来选择响应对。

实验效果

Anthropic HH-RLHF数据集：通过选择“easy”子集进行训练，得到了比其他子集（如“random”和“hard”）更好的损失和边际值。
SHP2数据集：使用“centroid”子集进行训练，得到了最好的效果，表明使用中心点和“easy”数据训练模型可以提高模型的安全性和有用性。

重要数据与结论

在Anthropic HH-RLHF数据集上，使用“easy”子集训练的模型在损失和边际值上表现更好。
在SHP2数据集上，“centroid”子集训练的模型在损失和边际值上表现最好。

8. Cross-Domain Content Generation with Domain-Specific Small Language Models

Authors: Ankit Maloo Abhinav Garg
https://arxiv.org/abs/2409.17171

跨域内容生成与特定领域小型语言模型

摘要

本研究探索了如何使小型语言模型能够针对两个不同领域（故事和食谱）生成连贯且相关的内容。研究发现，为每个数据集定制的分词器可以显著提高内容生成质量。尝试使用低秩适应（LoRA）或标准微调来适应单个模型至两个领域并未得到实质性结果，常常无法产生有意义的输出。此外，不冻结现有权重的全微调会导致灾难性遗忘。为克服这些挑战，我们采用了仅用额外参数训练的知识扩展策略。这种方法使模型能够在请求时生成故事和食谱，有效处理多个领域，同时避免灾难性遗忘。

研究背景

随着大规模语言模型的发展，如GPT-3和GPT-4，这些模型在不同领域的文本生成方面表现出色，但它们的高计算需求和资源密集型训练过程对许多应用来说存在实际限制。因此，研究者们对更小、更高效的模型产生了兴趣，这些模型能够在不需要大量计算资源的情况下执行特定任务。

问题与挑战

从不同的数据集生成特定领域的内容面临几个挑战，包括确保模型可以根据输入提示区分不同领域并相应产生相关内容，以及小型模型容易受到灾难性遗忘的影响。

如何解决

研究中采用了知识扩展策略：仅通过新增参数进行训练，不改变现有层的权重。这种方法允许模型在不擦除先前学习的信息的情况下学习新的领域特定知识。

创新点

展示了小型语言模型在特定领域数据集上的有效个体建模。
通过为特定数据集定制的分词器显著提高了文本生成质量。
分析了传统微调方法在小型模型多领域设置中的局限性。
提出了一种通过新增层来扩展知识的方法，有效使模型处理多个领域而不遗忘先前学习的信息。

算法模型

模型架构：基于Llama-2架构，针对两个数据集分别训练的模型。
知识扩展策略：在现有模型基础上增加新层，以适应新的数据集。

实验效果

定量评估：
- TinyStories LM：上下文长度350个token，最终损失0.7，困惑度2.01。
- Recipes LM：上下文长度350个token，最终损失0.77，困惑度2.15。
- 组合模型（22M参数）：最终损失0.83，困惑度2.29，任务检测准确率94%。
- 组合模型（220M参数）：最终损失0.71，困惑度2.03，任务检测准确率86%。
定性评估：
- TinyStories LM：连贯性4.7/5，相关性4.5/5，创造性4.6/5。
- Recipes LM：准确性4.8/5，结构性4.6/5，完整性4.5/5。
- 组合模型（22M参数）：故事连贯性4.3/5，食谱结构性4.4/5，任务适当性93%。