全新逆正则ASR数据集、多年龄TTS数据集，为构建AI系统提供核心数据动能-CSDN博客

海天瑞声本次数据集上新，包含语音识别、语音合成、视频数据集等，以高质量、多模态数据集，提升模型泛化能力，为构建AI系统提供核心数据动能。

· 多语种逆正则ASR数据集

· 多语种ASR数据集-呼叫中心场景

· 阿拉伯语ASR数据集-对话

· 中英文TTS数据集-自由对话

· 多语种TTS数据集-单人Free Talk

· 多年龄中文TTS数据集-老人儿童

· 中文数字人视频数据集

· 单人动作视频数据集

多语种逆正则ASR数据集

该数据集主要用于提升语音识别系统输出的文本在标点、数字、缩写等非标准表达上的规范化能力。

🔥 产品特色：覆盖14种语言及方言，包括阿拉伯语、英语（英式、美式）、西班牙语、葡萄牙语、法语、德语、意大利语、中文普通话、日语、韩语、印地语、印度英语。包含700名发音人，每个语种50人，总时长194小时。发音人性别平均，覆盖不同性别语言特征。

🚀 数据内容：包括常见的逆正则化情况，基础数字、数学计算符号、时间、日期、货币、邮箱、网址等。

多语种ASR数据集-呼叫中心场景

呼叫中心场景的ASR面临多语言/方言混合、嘈杂背景音、口语化表达、专业术语高频出现，以及实时性要求高等挑战。此外，情感语调和话者重叠也增加识别难度，数据集需要覆盖真实对话的复杂性和领域适应性。

🔥 产品特色：覆盖多国语言及方言包括新加坡英语、美国英语、日语、沙特阿拉伯语、海地克里奥尔语、中文方言（广东粤语、四川话）等。包含3436名发音人，总时长3472小时，95%以上字准确率。发音人性别平均，全面覆盖不同年龄段的语言特征。

🚀 话题内容：覆盖金融、零售、客服、电销、物流、旅游等行业。

阿拉伯语ASR数据集-对话

阿拉伯语是全球4亿多人的母语，作为闪含语系的重要语言，拥有独特的右向左书写系统。其方言差异显著，发音、词汇差异较大。这些特点对阿语语音数据集提出高要求，需兼顾方言多样性、音系复杂性和书写连贯规则等。

🔥 产品特色：数据集覆盖8个地区阿联酋、约旦、科威特、卡塔尔、埃及、摩洛哥、沙特阿拉伯、利比亚，包含1000名发音人，总时长966小时，95%以上字准确率。发音人性别均衡，年龄跨度从18岁到65岁，全面覆盖了不同年龄段的语言特征。

🚀 话题内容：家庭、健康、音乐、购物、体育、旅行、工作、食物、教育、电影、社交网络、朋友、娱乐、新闻、宠物、计算机、电视、名人、生活、结婚、天气等日常闲聊话题。

中英文TTS数据集-自由对话

“通人性”的开放域对话AI模型，不仅要覆盖多情感、文化差异及逻辑跳跃，同时要避免机械化的模板回复。需要通过真实、自然的高质量语音合成数据进行训练，确保生成流畅且符合语境的内容。

🔥 产品特色：包括1150名发音人1500小时的中文自由对话（含老人儿童），及150名发音人150小时的英文自由对话，99%以上字准确率，标注副语言等细节。高度自然的口语化表达，涵盖多话题、多风格。包含丰富的语气词、停顿、重复和即兴修正，模拟真实人类对话的交互性。

🚀 话题内容：家庭、生活、健康、兴趣、娱乐、运动、旅行、工作、新闻、宠物、天气等日常闲聊话题。覆盖积极、消极、中性等不同情绪。

多语种TTS数据集-单人FreeTalk

为了增强不同垂直领域模型在客服、导航、有声读物等多样化场景的适应能力，生成接近真人发音的高质量语音。需要高质量的单人Free Talk数据，训练高拟真、多语言的TTS模型。

🔥 产品特色：包含来自不同国家及地区13名发音人的17小时单人Free Talk，每人1-3小时不等。覆盖英语（美式、英式）、阿拉伯语、俄语、葡萄牙语、日语、韩语、中文方言（北京话、四川话、东北话、香港粤语）等。内容为即兴自由表达，包含自然停顿、情感起伏和口语化措辞。语料包含通用话题，兼顾语言特性与发音细节。