Translanguage English Database (TED) Transcripts 是一个用于语音和语言技术研究的数据集,其中包含一系列用英语进行的对话和演讲的转录文本。TED(Technology, Entertainment, Design)是一个知名的演讲平台,汇集了来自世界各地的杰出人士分享他们的想法、见解和创新。
TED Transcripts 数据集通常包括从 TED 演讲视频中提取的音频转录文本,这些文本经过专业人员的校对和编辑,以确保其准确性和可读性。这些转录文本为研究人员提供了丰富的语言资源,可以用于各种自然语言处理(NLP)任务,如语音识别、机器翻译、文本摘要、情感分析、关键词提取等。
由于 TED 演讲涵盖了广泛的主题和领域,TED Transcripts 数据集也包含了多样化的词汇和表达方式。这使得它成为一个有价值的资源,可以帮助研究人员构建更广泛适用的模型和算法。
获取方法:
方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网
方法2:关注公众号,回复Translanguage English Database (TED) TranscriptsLDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg