语音识别 | 数据堂方言语音数据集

最新推荐文章于 2024-07-09 16:23:22 发布

编程大乐趣

最新推荐文章于 2024-07-09 16:23:22 发布

阅读量2.1k

点赞数

尽管语音识别技术取得了显著进步，但仍存在方言识别难题。研究表明，智能音箱对非美国口音的识别率较低。数据堂提供丰富的方言语音数据集，如武汉、昆明、长沙等地的方言，以提升模型的准确性和多样性。这些数据用于训练，能有效提高语音识别和相关应用的方言处理能力。

摘要由CSDN通过智能技术生成

语音识别如今已经走过了漫长的道路，尽管通过机器学习实现了技术上的突飞猛进，如今的语音识别系统仍然有许多不完美的地方，其中一点就是带有歧视性。在最近报道出的《华盛顿邮报》委托进行的一项研究中，谷歌和亚马逊生产的智能音箱，它能够听懂非美国口音的可能性比本土用户低30%。方言识别成为了语音识别技术的一大待突破的障碍。

论方言识别率的必要性

“十里不同音，百里不同俗”是中国的语言现状。中国共有56个民族，除了回族没有自己的语言之外，其他所有民族都有自己的语言，在各个方言区中又分布着多种土语。据不完全统计，中国至少有80种以上的语言。除此之外，由于受到方言的影响，很多人的普通话会有一定的口音存在。无论是目前的智能家居产品还是未来某些语音识别产品的应用，方言的识别是不可或缺的。

训练数据越多越好

语音识别的专业基础包括了算法基础、数据知识和开源平台，其中算法基础是语音识别系统的核心知识，包括了声学机理、信号处理、声学模型、语言模型和解码搜索等。训练数据是语音识别准确率不断提升的关键。语音识别中的口音差异是一个数据问题。语料库中语音样本的数量和多样性越高，得到的模型就越精确。随着越来越多不同方言说话的语音数据做训练，语音识别能力就会不断提高。

数据堂自有版权各地区方言语音系列数据产品包含：

1000小时武汉方言录音数据

1000小时昆明方言录音数据

1000小时长沙方言录音数据

1032小时上海方言手机采集语音数据

738小时维语手机采集语音数据

1652小时粤语手机采集语音数据

1044小时闽南语手机采集语音数据

312人东北方言手机采集语音数据

463人河南方言手机采集语音数据

370人杭州方言手机语音采集数据

250人苏州方言手机语音采集数据

最低0.47元/天解锁文章

编程大乐趣

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
语音识别 | 数据堂方言语音数据集

语音识别如今已经走过了漫长的道路，尽管通过机器学习实现了技术上的突飞猛进，如今的语音识别系统仍然有许多不完美的地方，其中一点就是带有歧视性。在最近报道出的《华盛顿邮报》委托进行的一项研究中，谷歌和亚马逊生产的智能音箱，它能够听懂非美国口音的可能性比本土用户低30%。方言识别成为了语音识别技术的一大待突破的障碍。论方言识别率的必要性“十里不同音，百里不同俗”是中国的语言现状。中国共有56个民族，除了...
复制链接

扫一扫