What am I missing here?: Evaluating Large Language Models for Masked Sentence Prediction

最新推荐文章于 2025-12-18 11:52:33 发布

UnknownBody

最新推荐文章于 2025-12-18 11:52:33 发布

阅读量118

点赞数 2

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM Evaluation 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/153464523

LLM Daily 同时被 2 个专栏收录

1745 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Evaluation

97 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章总结与翻译

一、主要内容

该研究聚焦大型语言模型（LLMs）在句子级预测任务中的能力局限，通过“掩码句子预测”（MSP）任务展开评估。研究背景源于当前基于Transformer的模型多依赖“下一个token预测”（NTP）训练目标，虽能保证局部流畅性，但在长程连贯性、全局语境理解及句子级重构任务中存在不足。

研究选取GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash三款商业LLM，在叙事类（ROCStories）、流程类（Recipe1M）、说明类（Wikipedia）三个领域的数据集上进行测试，每个数据集随机抽取400份测试文档。实验通过控制“掩码位置”（文档首句、尾句、中间句）和“掩码密度”（单句、多连续句）两个变量，从“保真度”（生成句与原句相似度，用BLEURT、SBERT等自动指标衡量）和“连贯性”（生成句与上下文适配度，用盲态人工偏好测试衡量）两个维度评估模型表现。

核心结果显示：所有模型整体保真度偏低（BLEURT得分极少超过0.55）；领域结构对性能影响显著，流程类数据集（Recipe1M）因逻辑可预测性，保真度高于叙事类和说明类；掩码位置方面，中间句掩码时模型表现最佳，尾句掩码表现最差；连贯性上，叙事类和说明类数据集的“生成句与原句同等偏好”占比超60%，但流程类数据集中人工更偏好原句，反映出“保真度与连贯性存在反向关系”——结构化领域中模型易再现原句，但错误更显眼；开放领域中模型虽语义偏离原句，却能维持表面连贯性。同时，研究还指出数据污染（评估数据集可能含于模型训练数据）、单一人工标注、仅用商业闭源模型等局限性，并提出未来可探索层级注意力架构、MSP目标微调等改进方向。