关注NICE,不错过每周分享~
主题
大模型数据合成和增强技术
时间
2024.11.27 周三 20:00-21:00
论文:A Survey on Data Synthesis and Augmentation for Large Language Models
地址:https://arxiv.org/abs/2410.12896
大纲
大模型数据合成和增强技术的背景
大模型数据合成和增强技术的分类体系
大模型全生命周期角度下的数据合成和增强技术
大模型功能角度下的数据合成和增强技术
数据合成和增强的挑战与限制
数据合成和增强的未来方向
引言
大型语言模型(LLMs)的成功在很大程度上取决于大规模、多样化和高质量的数据。然而,随着训练数据集的迅速扩张,高质量数据的增长速度明显滞后,这导致了一个迫在眉睫的数据耗尽危机。因此,如何提高数据效率和探索新的数据来源成为了当前研究的重要课题。在这种背景下,生成数据作为一种潜在的解决方案逐渐受到关注。目前,数据生成主要包含两种方法:数据合成和数据增强。先前的研究主要从应用或者技术层面来探索的数据合成和增强方法。相比之下,我们以大语言模型为导向,旨在从数据的角度来系统地来探讨大模型不同生命周期和核心功能下的数据合成和增强技术,提供一个探索大模型数据科学的全新视角。
嘉宾

王科,助理研究员,博士,毕业于上海交通大学,目前任职于北航杭州创新研究院,主要研究方向数据挖掘,多模态学习,累计发表CCF A/B类高水平论文11篇,担任ACM TOIS、AAAI、ACM MM等多个CCF A类期刊和会议审稿人。曾荣获校级优秀学生干部、三好研究生和优秀毕业生等荣誉。

朱佳慧,助理研究员,博士,毕业于浙江大学,目前任职于北航杭州创新研究院,主要研究方向计算机视觉、遥感技术,已在Marine Structures、Ocean Engineering等国际顶尖期刊上发表高水平论文3篇,申请发明专利7项(已授权专利4项),曾获中天科技奖学金、三好研究生等荣誉。