海天瑞声本次数据集上新,包含语音识别、语音合成、视频数据集等,以高质量、多模态数据集,提升模型泛化能力,为构建AI系统提供核心数据动能。
· 多语种逆正则ASR数据集
· 多语种ASR数据集-呼叫中心场景
· 阿拉伯语ASR数据集-对话
· 中英文TTS数据集-自由对话
· 多语种TTS数据集-单人Free Talk
· 多年龄中文TTS数据集-老人儿童
· 中文数字人视频数据集
· 单人动作视频数据集
多语种逆正则ASR数据集
该数据集主要用于提升语音识别系统输出的文本在标点、数字、缩写等非标准表达上的规范化能力。
🔥 产品特色:覆盖14种语言及方言,包括阿拉伯语、英语(英式、美式)、西班牙语、葡萄牙语、法语、德语、意大利语、中文普通话、日语、韩语、印地语、印度英语。包含700名发音人,每个语种50人,总时长194小时。发音人性别平均,覆盖不同性别语言特征。
🚀 数据内容:包括常见的逆正则化情况,基础数字、数学计算符号、时间、日期、货币、邮箱、网址等。
多语种ASR数据集-呼叫中心场景
呼叫中心场景的ASR面临多语言/方言混合、嘈杂背景音、口语化表达、专业术语高频出现,以及实时性要求高等挑战。此外,情感语调和话者重叠也增加识别难度,数据集需要覆盖真实对话的复杂性和领域适应性。
🔥 产品特色:覆盖多国语言及方言包括新加坡英语、美国英语、日语、沙特阿拉伯语、海地克里奥尔语、中文方言(广东粤语、四川话)等。包含3436名发音人,总时长3472小时,95%以上字准确率。发音人性别平均,全面覆盖不同年龄段的语言特征。
🚀 话题内容:覆盖金融、零售、客服、电销、物流、旅游等行业。
阿拉伯语ASR数据集-对话
阿拉伯语是全球4亿多人的母语,作为闪含语系的重要语言,拥有独特的右向左书写系统。其方言差异显著,发音、词汇差异较大。这些特点对阿语语音数据集提出高要求,需兼顾方言多样性、音系复杂性和书写连贯规则等。
🔥 产品特色:数据集覆盖8个地区阿联酋、约旦、科威特、卡塔尔、埃及、摩洛哥、沙特阿拉伯、利比亚,包含1000名发音人,总时长966小时,95%以上字准确率。发音人性别均衡,年龄跨度从18岁到65岁,全面覆盖了不同年龄段的语言特征。
🚀 话题内容:家庭、健康、音乐、购物、体育、旅行、工作、食物、教育、电影、社交网络、朋友、娱乐、新闻、宠物、计算机、电视、名人、生活、结婚、天气等日常闲聊话题。
中英文TTS数据集-自由对话
“通人性”的开放域对话AI模型,不仅要覆盖多情感、文化差异及逻辑跳跃,同时要避免机械化的模板回复。需要通过真实、自然的高质量语音合成数据进行训练,确保生成流畅且符合语境的内容。
🔥 产品特色:包括1150名发音人1500小时的中文自由对话(含老人儿童),及150名发音人150小时的英文自由对话,99%以上字准确率,标注副语言等细节。高度自然的口语化表达,涵盖多话题、多风格。包含丰富的语气词、停顿、重复和即兴修正,模拟真实人类对话的交互性。
🚀 话题内容:家庭、生活、健康、兴趣、娱乐、运动、旅行、工作、新闻、宠物、天气等日常闲聊话题。覆盖积极、消极、中性等不同情绪。
多语种TTS数据集-单人FreeTalk
为了增强不同垂直领域模型在客服、导航、有声读物等多样化场景的适应能力,生成接近真人发音的高质量语音。需要高质量的单人Free Talk数据,训练高拟真、多语言的TTS模型。
🔥 产品特色:包含来自不同国家及地区13名发音人的17小时单人Free Talk,每人1-3小时不等。覆盖英语(美式、英式)、阿拉伯语、俄语、葡萄牙语、日语、韩语、中文方言(北京话、四川话、东北话、香港粤语)等。内容为即兴自由表达,包含自然停顿、情感起伏和口语化措辞。语料包含通用话题,兼顾语言特性与发音细节。
多年龄段中文TTS数据集-老人儿童
在教育、娱乐、有声书等领域,模型可模拟青年、中年、老年等不同年龄段的音色特点。高质量语音数据助力模型富有更好的表现力,适用于个性化语音合成需求。
🔥 产品特色:该数据集风格自然、覆盖多年龄段男女声,每位发音人录制1小时语料。内容涵盖日常对话、新闻朗读和情感语句,发音自然流畅。
女声
- 中年女声:成熟稳重,适合生活化/商业场景
- 老年女声:慈祥舒缓,适合怀旧/叙事
- 少年女声:青春活力,适合年轻化内容
- 女童声:天真可爱,适合儿童产品/互动
男声
- 中年男声:沉稳可靠,适合商务/解说
- 老年男声:沧桑厚重,适合历史/故事
- 通用男声:自然百搭,适合多场景
中文数字人视频数据集
🔥 产品特色:包含30位成年男性的视频数据,半身状态且不佩戴眼镜,唇色及唇形清晰。每个人包含正面讲话视频5分钟,低头读稿视频5分钟,语料不重复。
📹 录制环境:录制无杂音,录音过程情绪状态自然,有互动性,发音准确清晰。拍摄过程光照无变化,面部无反光或过曝等。
🖼️ 视频规格:2k及以上
🔗 产品编号:King-VD-051
单人动作视频数据集
🔥 产品特色:覆盖多样化的动作模态,不同视角高清拍摄确保动作细节完整。视频包含单人全身舞蹈、半身手势舞、日常动作等。适用于动作识别、虚拟人驱动、运动生成等训练任务,强调自然流畅性与视觉表现力的平衡。
🖼️ 视频规格:1080P,共5000段,画面以竖屏为主,每个视频10s左右。
🔗 产品编号:King-VD-058