TalkBank数据集介绍，官网编号LDC2005T35、LDC2004V01、LDC2001S16、LDC2004T03、LDC2005S25

最新推荐文章于 2024-07-26 13:24:37 发布

2401_82807541

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量591

点赞数 16

文章标签：人工智能机器翻译语音识别机器学习自然语言处理

本文链接：https://blog.csdn.net/2401_82807541/article/details/140649291

版权

TalkBank是一个综合性的语言数据集平台，由卡内基梅隆大学的Brian MacWhinney组织建设，旨在收集和整理各类语言相关的数据集，以便于语言学、心理学、认知科学等领域的研究者使用。以下是对TalkBank数据集的具体介绍：

一、平台概述

创建者：Brian MacWhinney，卡内基梅隆大学
目的：为语言学、心理学、认知科学等领域的研究提供数据支持
数据类型：包含文本、音频、视频等多种模态的数据

二、数据集特点

多模态性：TalkBank中的数据集不仅包含文本数据，还包含音频、视频等多媒体数据，为研究者提供了丰富的数据资源。
多样性：平台上的数据集涵盖了儿童语言发展、失语症、老年人语言等多个领域，满足了不同研究方向的需求。
高质量：所有数据集都经过严格的筛选和整理，确保了数据的质量和可用性。

三、代表性数据集

AphasiaBank
- 内容：专注于失语症患者的语言交际问题，包含音频、视频语料和对应文本。
- 数据规模：未具体说明，但包含多个大型队列研究产生的语料库。
- 应用：研究失语症患者的语言特征、恢复过程等。
DementiaBank
- 内容：已成为最为知名的老年痴呆症患者语料库之一，包含英语、德语、西班牙语和汉语等多种语言的数据。
- 数据规模：共收录2107人语料，其中59岁及以下小计134人，60岁及以上小计1876人。
- 特点：包含自由谈话、看图说话、故事叙述等多种话语类型，为研究痴呆症患者的语言交际问题提供了重要资源。
- 汉语语料库：“Mandarin Lu”和“Mandarin Ye”分库记录了参与认知评估的痴呆患者的数据。
CCC（The Carolinas Conversations Collection）
- 内容：收集了与患有慢性疾病和认知障碍老年人的对话访谈。
- 数据规模：包含500个以上的访谈记录，时长总计为800小时以上。
- 特点：分为两个队列，分别关注患有慢性病和认知障碍的老年人，为研究老年人如何与不同人群交谈提供了数据支持。
CorpAGEst和VIntAGE
- 内容：关注正常衰老老年人的语用能力变化，包含录音、录像等多种模态的数据。
- 数据规模：设计了98个话题，进行了196场访谈，约144小时，约150万字文本语料。
- 特点：分为横向和纵向两个子库，分别用于探索语言交互中的语用标记和语用线索的补偿策略。
MCGD（Multimodal Corpus of Gerontic Discourse）
- 内容：我国老年语言学专家顾曰国等学者参与建设的多模态语料库，关注不同认知水平老年人的语料数据。
- 数据规模：未具体说明，但已完成核心数据的标注和评估。
- 特点：采用出生队列的建库原则，构建了包括认知健康、轻度认知障碍、阿尔茨海默病等老年人的语料数据。

LDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

2401_82807541

关注

16
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
TalkBank数据集介绍，官网编号LDC2005T35、LDC2004V01、LDC2001S16、LDC2004T03、LDC2005S25

创建者：Brian MacWhinney，卡内基梅隆大学目的：为语言学、心理学、认知科学等领域的研究提供数据支持数据类型：包含文本、音频、视频等多种模态的数据。
复制链接

扫一扫