大数据文摘专栏作品
作者:Christopher Dossman
编译:Jiaxu、云舟
呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!
AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。
每周更新,做AI科研,每周从这一篇开始就够啦!
本周关键词:神经网络理解、情感识别、三维姿态估计
本周热门学术研究
大规模广播谈话语料库发布
一组研究人员在2018年10月至2019年3月期间发布了大量从美国广播中采集的语音识别抄本。这些数据包括28万多小时的广播中近28亿字的转录语音,以及有关语音的元数据。
本研究使用一个转录系统检查新的音频文件并将其转录后写回到数据中。元数据包括诸如性别、地理位置、说话者转换标示以及广播节目信息等。数据采用JSONL格式,每行一个JSON文档。每一行代表一个音频片段,其中可能包含多个由字典对象和键表示的语句。
尽管存在着听写错误,但这一语料库在自然语言处理、社会科学、会话分析等领域仍然具有很好的应用前景。未来可能会发布新版本的RadioTalk,附带额外的转录音频和当前语料库的改进转录。
代码:
https://github.com/social-machines/RadioTalk
原文:
https://arxiv.org/abs/1907.07073