很荣幸邀请两位研究员分享:大模型数据合成和增强技术

992e5b3fbf8865848940f8adb513f256.png

关注NICE,不错过每周分享~

主题

大模型数据合成和增强技术

时间

2024.11.27 周三 20:00-21:00

eaaa15efb17f3646aba4e14f3e89cda7.png

论文:A Survey on Data Synthesis and Augmentation for Large Language Models
地址:https://arxiv.org/abs/2410.12896

大纲

  1. 大模型数据合成和增强技术的背景

  2. 大模型数据合成和增强技术的分类体系

  3. 大模型全生命周期角度下的数据合成和增强技术

  4. 大模型功能角度下的数据合成和增强技术

  5. 数据合成和增强的挑战与限制

  6. 数据合成和增强的未来方向

引言

大型语言模型(LLMs)的成功在很大程度上取决于大规模、多样化和高质量的数据。然而,随着训练数据集的迅速扩张,高质量数据的增长速度明显滞后,这导致了一个迫在眉睫的数据耗尽危机。因此,如何提高数据效率和探索新的数据来源成为了当前研究的重要课题。在这种背景下,生成数据作为一种潜在的解决方案逐渐受到关注。目前,数据生成主要包含两种方法:数据合成和数据增强。先前的研究主要从应用或者技术层面来探索的数据合成和增强方法。相比之下,我们以大语言模型为导向,旨在从数据的角度来系统地来探讨大模型不同生命周期和核心功能下的数据合成和增强技术,提供一个探索大模型数据科学的全新视角。

嘉宾

7cfbcf45b8d67299a3b40caa87fba9ec.png

王科,助理研究员,博士,毕业于上海交通大学,目前任职于北航杭州创新研究院,主要研究方向数据挖掘,多模态学习,累计发表CCF A/B类高水平论文11篇,担任ACM TOIS、AAAI、ACM MM等多个CCF A类期刊和会议审稿人。曾荣获校级优秀学生干部、三好研究生和优秀毕业生等荣誉。

86748cff307258405bbe02ba4251fd26.png

朱佳慧,助理研究员,博士,毕业于浙江大学,目前任职于北航杭州创新研究院,主要研究方向计算机视觉、遥感技术,已在Marine Structures、Ocean Engineering等国际顶尖期刊上发表高水平论文3篇,申请发明专利7项(已授权专利4项),曾获中天科技奖学金、三好研究生等荣誉。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值