语音识别 | 数据堂方言语音数据集

尽管语音识别技术取得了显著进步,但仍存在方言识别难题。研究表明,智能音箱对非美国口音的识别率较低。数据堂提供丰富的方言语音数据集,如武汉、昆明、长沙等地的方言,以提升模型的准确性和多样性。这些数据用于训练,能有效提高语音识别和相关应用的方言处理能力。
摘要由CSDN通过智能技术生成

语音识别如今已经走过了漫长的道路,尽管通过机器学习实现了技术上的突飞猛进,如今的语音识别系统仍然有许多不完美的地方,其中一点就是带有歧视性。在最近报道出的《华盛顿邮报》委托进行的一项研究中,谷歌和亚马逊生产的智能音箱,它能够听懂非美国口音的可能性比本土用户低30%。方言识别成为了语音识别技术的一大待突破的障碍。

论方言识别率的必要性

“十里不同音,百里不同俗”是中国的语言现状。中国共有56个民族,除了回族没有自己的语言之外,其他所有民族都有自己的语言,在各个方言区中又分布着多种土语。据不完全统计,中国至少有80种以上的语言。除此之外,由于受到方言的影响,很多人的普通话会有一定的口音存在。无论是目前的智能家居产品还是未来某些语音识别产品的应用,方言的识别是不可或缺的。

训练数据越多越好

语音识别的专业基础包括了算法基础、数据知识和开源平台,其中算法基础是语音识别系统的核心知识,包括了声学机理、信号处理、声学模型、语言模型和解码搜索等。训练数据是语音识别准确率不断提升的关键。语音识别中的口音差异是一个数据问题。语料库中语音样本的数量和多样性越高,得到的模型就越精确。随着越来越多不同方言说话的语音数据做训练,语音识别能力就会不断提高。

数据堂自有版权各地区方言语音系列数据产品包含:

1000小时 武汉方言录音数据

1000小时 昆明方言录音数据

1000小时 长沙方言录音数据

1032小时 上海方言手机采集语音数据

738小时 维语手机采集语音数据

1652小时 粤语手机采集语音数据

1044小时 闽南语手机采集语音数据

312人 东北方言手机采集语音数据

463人 河南方言手机采集语音数据

370人 杭州方言手机语音采集数据

250人 苏州方言手机语音采集数据

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值