主题
大模型的高效新能源:数据合成与自动化评估
时间
北京时间 2025.3.23 10:30 am
嘉宾
黄跃,圣母大学一年级博士生,其主要研究方向为可信赖的生成式模型。
论文介绍:现有的合成数据生成方法仍然存在泛化性不足,可控性有限,多样性较低和幻觉问题。针对这些问题,本文提出 DataGen,一个基于LLMs的综合数据生成框架,旨在提高数据的多样性、准确性、可控性和泛化能力。DataGen支持所有类型的文本数据,采用采用自反思(Self-Reflection)和自增强(Self-Enhancement)机制来提升数据质量;同时利用基于代码的验证并结合RAG技术,确保生成文本的准确性。其被用于LLM动态基准测试和数据增强,并证明对提升LLM的推理能力和知识泛化能力有显著作用。
李岳泰,华盛顿大学二年级博士生,主要研究方向为LLM reasoning和合成数据分析。
论文介绍:大型语言模型在复杂推理任务上表现出色,并且将其推理能力蒸馏到小型模型中已显示出一定的潜力。然而,我们发现了一个有趣的现象,称之为Small Model Learnability Gap:小于等于 3B的模型并不一定能稳定地从蒸馏长思维链(long CoT)或蒸馏更大的教师模型中获益。相反,当它们蒸馏更短或更小的教师模型的推理可能表现更佳,因为这种方式更符合它们固有的学习能力。此外,数学专有模型的learnability gap远小于通用模型,说明这种现象可能来自于小模型领域知识的不足。为了解决这一问题,我们提出了一种简单的策略叫做混合蒸馏(Mix Distillation),它通过以一定比例混合长短 CoT 数据或混合更大和更小的教师模型的蒸馏数据。实验结果表明,与仅使用单一类型数据训练相比,混合蒸馏提升了小模型的推理能力。这一发现揭示了直接从强大模型进行蒸馏的局限性,并强调了在推理能力迁移过程中适配推理数据复杂度的重要性。
主持人
李大卫,亚利桑那州立大学一年级博士生,在ACL,EMNLP,NAACL等顶级会议发表多篇论文,同时担任ARR,ICLR,NeurIPS,AISTATS等国际会议审稿人。研究兴趣包括从结构化/非结构化文本以及参数化模型中蒸馏知识,高效模型训练/推理,以及探索大模型的社会智能和社交智能。
论文介绍:(题目:AI监督带来的风险和挑战)基于大模型的数据合成和评估已经成为模型开发的常见范式,然而由于数据合成模型和评估模型相关性所带来的潜在污染问题却缺乏探索。在本篇工作里,我们定义了三种常见的模型相关性:相同模型、继承关系、同一模型家族,并通过多个LLM基线和基准测试实验证实了偏好泄露的存在。进一步分析表明,偏好泄露比已知的LLM评估偏差更隐蔽,且难以检测。
入群
欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。

NICE介绍
NICE(NLP Academic Exchange Platform)成立于2023.11.26,由国内外高校一线青年教师和学生共同组织。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。至今已举办近70场分享、嘉宾100+人、全网拥有粉丝量10+万,b站和视频号一共大约20万播放量。详情见:
NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@NLPAcademicExchangePlatform