TalkBank数据集介绍,官网编号LDC2005T35、LDC2004V01、LDC2001S16、LDC2004T03、LDC2005S25

TalkBank是一个综合性的语言数据集平台,由卡内基梅隆大学的Brian MacWhinney组织建设,旨在收集和整理各类语言相关的数据集,以便于语言学、心理学、认知科学等领域的研究者使用。以下是对TalkBank数据集的具体介绍:

一、平台概述

  • 创建者:Brian MacWhinney,卡内基梅隆大学
  • 目的:为语言学、心理学、认知科学等领域的研究提供数据支持
  • 数据类型:包含文本、音频、视频等多种模态的数据

二、数据集特点

  1. 多模态性:TalkBank中的数据集不仅包含文本数据,还包含音频、视频等多媒体数据,为研究者提供了丰富的数据资源。
  2. 多样性:平台上的数据集涵盖了儿童语言发展、失语症、老年人语言等多个领域,满足了不同研究方向的需求。
  3. 高质量:所有数据集都经过严格的筛选和整理,确保了数据的质量和可用性。

三、代表性数据集

  1. AphasiaBank
    • 内容:专注于失语症患者的语言交际问题,包含音频、视频语料和对应文本。
    • 数据规模:未具体说明,但包含多个大型队列研究产生的语料库。
    • 应用:研究失语症患者的语言特征、恢复过程等。
  2. DementiaBank
    • 内容:已成为最为知名的老年痴呆症患者语料库之一,包含英语、德语、西班牙语和汉语等多种语言的数据。
    • 数据规模:共收录2107人语料,其中59岁及以下小计134人,60岁及以上小计1876人。
    • 特点:包含自由谈话、看图说话、故事叙述等多种话语类型,为研究痴呆症患者的语言交际问题提供了重要资源。
    • 汉语语料库:“Mandarin Lu”和“Mandarin Ye”分库记录了参与认知评估的痴呆患者的数据。
  3. CCC(The Carolinas Conversations Collection)
    • 内容:收集了与患有慢性疾病和认知障碍老年人的对话访谈。
    • 数据规模:包含500个以上的访谈记录,时长总计为800小时以上。
    • 特点:分为两个队列,分别关注患有慢性病和认知障碍的老年人,为研究老年人如何与不同人群交谈提供了数据支持。
  4. CorpAGEst和VIntAGE
    • 内容:关注正常衰老老年人的语用能力变化,包含录音、录像等多种模态的数据。
    • 数据规模:设计了98个话题,进行了196场访谈,约144小时,约150万字文本语料。
    • 特点:分为横向和纵向两个子库,分别用于探索语言交互中的语用标记和语用线索的补偿策略。
  5. MCGD(Multimodal Corpus of Gerontic Discourse)
    • 内容:我国老年语言学专家顾曰国等学者参与建设的多模态语料库,关注不同认知水平老年人的语料数据。
    • 数据规模:未具体说明,但已完成核心数据的标注和评估。
    • 特点:采用出生队列的建库原则,构建了包括认知健康、轻度认知障碍、阿尔茨海默病等老年人的语料数据。

LDC语料小助手icon-default.png?t=N7T8https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

 

  • 16
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值