全新逆正则ASR数据集、多年龄TTS数据集,为构建AI系统提供核心数据动能

海天瑞声本次数据集上新,包含语音识别、语音合成、视频数据集等,以高质量、多模态数据集,提升模型泛化能力,为构建AI系统提供核心数据动能。

· 多语种逆正则ASR数据集

· 多语种ASR数据集-呼叫中心场景

· 阿拉伯语ASR数据集-对话

· 中英文TTS数据集-自由对话

· 多语种TTS数据集-单人Free Talk

· 多年龄中文TTS数据集-老人儿童

· 中文数字人视频数据集

· 单人动作视频数据集

图片

多语种逆正则ASR数据集

该数据集主要用于提升语音识别系统输出的文本在标点、数字、缩写等非标准表达上的规范化能力。

🔥 产品特色:覆盖14种语言及方言,包括阿拉伯语、英语(英式、美式)、西班牙语、葡萄牙语、法语、德语、意大利语、中文普通话、日语、韩语、印地语、印度英语。包含700发音人,每个语种50人,总时长194小时。发音人性别平均,覆盖不同性别语言特征。

🚀 数据内容:包括常见的逆正则化情况,基础数字、数学计算符号、时间、日期、货币、邮箱、网址等。

图片

多语种ASR数据集-呼叫中心场景

呼叫中心场景的ASR面临多语言/方言混合、嘈杂背景音、口语化表达、专业术语高频出现,以及实时性要求高等挑战。此外,情感语调和话者重叠也增加识别难度,数据集需要覆盖真实对话的复杂性和领域适应性。

🔥 产品特色:覆盖多国语言及方言包括新加坡英语、美国英语、日语、沙特阿拉伯语、海地克里奥尔语、中文方言(广东粤语、四川话)等。包含3436名发音人,总时长3472小时,95%以上字准确率。发音人性别平均,全面覆盖不同年龄段的语言特征。

🚀 话题内容:覆盖金融、零售、客服、电销、物流、旅游等行业。

图片

阿拉伯语ASR数据集-对话

阿拉伯语是全球4亿多人的母语,作为闪含语系的重要语言,拥有独特的右向左书写系统。其方言差异显著,发音、词汇差异较大。这些特点对阿语语音数据集提出高要求,需兼顾方言多样性、音系复杂性和书写连贯规则等。

🔥 产品特色:数据集覆盖8个地区阿联酋、约旦、科威特、卡塔尔、埃及、摩洛哥、沙特阿拉伯、利比亚,包含1000名发音人,总时长966小时95%以上字准确率。发音人性别均衡,年龄跨度从18岁到65岁,全面覆盖了不同年龄段的语言特征。

🚀 话题内容:家庭、健康、音乐、购物、体育、旅行、工作、食物、教育、电影、社交网络、朋友、娱乐、新闻、宠物、计算机、电视、名人、生活、结婚、天气等日常闲聊话题。

图片

中英文TTS数据集-自由对话

“通人性”的开放域对话AI模型,不仅要覆盖多情感、文化差异及逻辑跳跃,同时要避免机械化的模板回复。需要通过真实、自然的高质量语音合成数据进行训练,确保生成流畅且符合语境的内容。

🔥 产品特色:包括1150名发音人1500小时的中文自由对话(含老人儿童),及150名发音人150小时的英文自由对话99%以上字准确率,标注副语言等细节。高度自然的口语化表达,涵盖多话题、多风格。包含丰富的语气词、停顿、重复和即兴修正,模拟真实人类对话的交互性。

🚀 话题内容:家庭、生活、健康、兴趣、娱乐、运动、旅行、工作、新闻、宠物、天气等日常闲聊话题。覆盖积极、消极、中性等不同情绪。

图片

多语种TTS数据集-单人FreeTalk

为了增强不同垂直领域模型在客服、导航、有声读物等多样化场景的适应能力,生成接近真人发音的高质量语音。需要高质量的单人Free Talk数据,训练高拟真、多语言的TTS模型。

🔥 产品特色:包含来自不同国家及地区13名发音人的17小时单人Free Talk,每人1-3小时不等。覆盖英语(美式、英式)、阿拉伯语、俄语、葡萄牙语、日语、韩语、中文方言(北京话、四川话、东北话、香港粤语)等。内容为即兴自由表达,包含自然停顿、情感起伏和口语化措辞。语料包含通用话题,兼顾语言特性与发音细节。

图片

多年龄段中文TTS数据集-老人儿童

在教育、娱乐、有声书等领域,模型可模拟青年、中年、老年等不同年龄段的音色特点。高质量语音数据助力模型富有更好的表现力,适用于个性化语音合成需求。

🔥 产品特色:该数据集风格自然、覆盖多年龄段男女声,每位发音人录制1小时语料。内容涵盖日常对话、新闻朗读和情感语句,发音自然流畅。

女声

- 中年女声:成熟稳重,适合生活化/商业场景

- 老年女声:慈祥舒缓,适合怀旧/叙事

- 少年女声:青春活力,适合年轻化内容

- 女童声:天真可爱,适合儿童产品/互动

男声

- 中年男声:沉稳可靠,适合商务/解说

- 老年男声:沧桑厚重,适合历史/故事

- 通用男声:自然百搭,适合多场景

图片

中文数字人视频数据集

🔥 产品特色:包含30位成年男性的视频数据,半身状态且不佩戴眼镜,唇色及唇形清晰。每个人包含正面讲话视频5分钟,低头读稿视频5分钟,语料不重复。

📹 录制环境:录制无杂音,录音过程情绪状态自然,有互动性,发音准确清晰。拍摄过程光照无变化,面部无反光或过曝等。

🖼️ 视频规格:2k及以上

🔗 产品编号:King-VD-051

图片

单人动作视频数据集

🔥 产品特色:覆盖多样化的动作模态,不同视角高清拍摄确保动作细节完整。视频包含单人全身舞蹈、半身手势舞、日常动作等。适用于动作识别、虚拟人驱动、运动生成等训练任务,强调自然流畅性与视觉表现力的平衡。

🖼️ 视频规格:1080P,共5000段,画面以竖屏为主,每个视频10s左右。

🔗 产品编号:King-VD-058

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值