真实 VS 合成,我们需要的真实数据微乎其微?| 一周最火AI论文

本文探讨了使用合成数据替代部分真实数据训练神经网络的效果,指出通过混合少量真实数据和大量合成数据,可以实现更经济高效的训练。研究发现,这种方法甚至比使用混合数据集进行训练更能提升模型性能。
摘要由CSDN通过智能技术生成

大数据文摘专栏作品

作者:Christopher Dossman

编译:Jiaxu、云舟

 

呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!

AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

每周更新,做AI科研,每周从这一篇开始就够啦!

 

本周关键词:神经网络理解、情感识别、三维姿态估计

 

本周热门学术研究

 

大规模广播谈话语料库发布

 

一组研究人员在2018年10月至2019年3月期间发布了大量从美国广播中采集的语音识别抄本。这些数据包括28万多小时的广播中近28亿字的转录语音,以及有关语音的元数据。

 

本研究使用一个转录系统检查新的音频文件并将其转录后写回到数据中。元数据包括诸如性别、地理位置、说话者转换标示以及广播节目信息等。数据采用JSONL格式,每行一个JSON文档。每一行代表一个音频片段,其中可能包含多个由字典对象和键表示的语句。

 

 

尽管存在着听写错误,但这一语料库在自然语言处理、社会科学、会话分析等领域仍然具有很好的应用前景。未来可能会发布新版本的RadioTalk,附带额外的转录音频和当前语料库的改进转录。

 

代码:

https://github.com/social-machines/RadioTalk

 

原文:

https://arxiv.org/abs/1907.07073

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值