TalkBank是一个综合性的语言数据集平台,由卡内基梅隆大学的Brian MacWhinney组织建设,旨在收集和整理各类语言相关的数据集,以便于语言学、心理学、认知科学等领域的研究者使用。以下是对TalkBank数据集的具体介绍:
一、平台概述
- 创建者:Brian MacWhinney,卡内基梅隆大学
- 目的:为语言学、心理学、认知科学等领域的研究提供数据支持
- 数据类型:包含文本、音频、视频等多种模态的数据
二、数据集特点
- 多模态性:TalkBank中的数据集不仅包含文本数据,还包含音频、视频等多媒体数据,为研究者提供了丰富的数据资源。
- 多样性:平台上的数据集涵盖了儿童语言发展、失语症、老年人语言等多个领域,满足了不同研究方向的需求。
- 高质量:所有数据集都经过严格的筛选和整理,确保了数据的质量和可用性。
三、代表性数据集
- AphasiaBank
- 内容:专注于失语症患者的语言交际问题,包含音频、视频语料和对应文本。
- 数据规模:未具体说明,但包含多个大型队列研究产生的语料库。
- 应用:研究失语症患者的语言特征、恢复过程等。
- DementiaBank
- 内容:已成为最为知名的老年痴呆症患者语料库之一,包含英语、德语、西班牙语和汉语等多种语言的数据。
- 数据规模:共收录2107人语料,其中59岁及以下小计134人,60岁及以上小计1876人。
- 特点:包含自由谈话、看图说话、故事叙述等多种话语类型,为研究痴呆症患者的语言交际问题提供了重要资源。
- 汉语语料库:“Mandarin Lu”和“Mandarin Ye”分库记录了参与认知评估的痴呆患者的数据。
- CCC(The Carolinas Conversations Collection)
- 内容:收集了与患有慢性疾病和认知障碍老年人的对话访谈。
- 数据规模:包含500个以上的访谈记录,时长总计为800小时以上。
- 特点:分为两个队列,分别关注患有慢性病和认知障碍的老年人,为研究老年人如何与不同人群交谈提供了数据支持。
- CorpAGEst和VIntAGE
- 内容:关注正常衰老老年人的语用能力变化,包含录音、录像等多种模态的数据。
- 数据规模:设计了98个话题,进行了196场访谈,约144小时,约150万字文本语料。
- 特点:分为横向和纵向两个子库,分别用于探索语言交互中的语用标记和语用线索的补偿策略。
- MCGD(Multimodal Corpus of Gerontic Discourse)
- 内容:我国老年语言学专家顾曰国等学者参与建设的多模态语料库,关注不同认知水平老年人的语料数据。
- 数据规模:未具体说明,但已完成核心数据的标注和评估。
- 特点:采用出生队列的建库原则,构建了包括认知健康、轻度认知障碍、阿尔茨海默病等老年人的语料数据。
LDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg