Springboot实现语音听写转文字功能

背景概述

语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。 语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

项目描述

实时语音转写(Real-time ASR)基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,将音频流数据实时转换成文字流数据结果,方便用户在实时同声传译,形成文档形式,去繁化简。

技术特性

  • 针对上下文进行语义理解,将中间结果进行智能纠错,确保准确性。
  • 对于音频流实现毫秒级识别,并返回带有时间戳的文字流,便于二次开发。
  • 对结果中出现数字、日期、时间等内容格式化成规整的文本。
  • 运用超大规模的语言模型,智能预测语境,提供智能断句和标点符号的预测。

技术规格

输入

  • 形式:实时音频流
  • 支持语种:中文普通话
  • 支持格式:PCM
  • 声道:单声道
  • 采样率:16KHz
  • 分片时长:40ms
  • 采样精度:16bits

输出

  • 形式:json格式字符串
  • 编码:UTF-8
  • 结果:句子开始&结束时间&词识别内容&词标识&词开始时间&词结束时间&结果类型标识&段落ID,整句的中间结果,整句的最终结果

解决思路

通过下载讯飞开发平台SDK以及demo进行java开发简易语音识别功能模块

源码下载

https://download.csdn.net/download/crazy_mamba/10993062

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值