前言:
近期做帮做毕业设计,需求里面要做语音识别,识别出用户朗读的文章,将识别出来的字符串返回给用户查看。这个想到的就只有百度开放平台的api了。
思路:
① 前往百度开放平台拿到APP_ID,API_KEY,SECRET_KEY
② 用户本地录音后,将MP3或其他格式文件上传到服务器指定接口。
③ 服务器端将MP3格式转换成pcm格式(百度语音推荐格式)
④ 服务器将pcm格式文件发送到百度开放平台接口
⑤ 接收回馈信息,存入数据库,并返回给用户
准备工作:
pom.xml文件:
<!-- 文件格式转换包 -->
<dependency>
<groupId>com.googlecode.soundlibs</groupId>
<artifactId>mp3spi</artifactId>
<version>1.9.5.4</version>
</dependency>
<!-- json转换工具包 -->
<dependency>
<groupId>org.json</groupId>
<artifactId>json</artifactId>
<version>20180130</version>
</dependency><!-- 百度api工具 -->
<dependency>
<groupId>com.baidu.aip</groupId>
<artifactId>java-sdk</artifactId>
<version>4.7.0<