目前已知的语音标注工具有多种。其中,FunASR 是一个语音识别工具,目前只支持 cpu 方式,采用 docker 安装,被认为是目前世界上最好的部署方法。它可以准确识别语音,并转成文字、标出声调。
Audio Annotator 是一款强大的音频标注工具,有两个版本被提及。一个版本基于现代 Web 技术构建,包括 HTML5 的
SPPAS 工具由 Brigitte Bigi 开发,在网上提供免费下载及使用,是一款目前比较流行的自动标注、音段对齐的工具,目前应用于法语、英语、汉语等都有不错的效果。
Praat 语音学软件是一款跨平台的多功能语音学专业软件,主要用于对数字化的语音信号进行分析、标注、处理及合成等实验,同时生成各种语图和文字报表,可以对语音信号进行采集、分析及标注,还可以对其进行滤波和转换,目前已成为世界上实验语音学、语言学、语言调查、语言处理等相关领域的研究人员普遍使用的软件,可进行频谱分析、基频分析、强度分析、共振峰分析、语音标注、语音参数调整和合成、提前语音数据、语音数据的统计分析等操作。
数加加是由专注于人工智能数据服务的数据堂公司斥巨资打造的一款众包任务平台,提供专业的数据标注服务,包括语音数据标注,数加加标注客户端是视频标注任务专用,支持各种快捷标注操作,为提升标注效率提供助力,数加加视频追踪标注客户端可进行视频跨帧追踪,实现自动化标注,极大提高标注效率,3D 点云标注客户端可进行 3D 跨帧追踪操作,也能实现 3D - 2D 联合标注,实现自动化标注,可极大提高标注效率。
vLabeler 是一款开源语音标注工具,致力于打造现代无缝的 UI/UX 体验,设计用于满足多样化的语音处理需求,特别是对于那些寻求自定义标签流程的用户&#