阿里语音识别(语音转文字)java调用全程手把手详解-适合中小学生快速上手

最新推荐文章于 2024-07-23 07:48:24 发布

云寻觅

最新推荐文章于 2024-07-23 07:48:24 发布

阅读量9.3k

点赞数 2

文章标签：语音识别语音转文字

本文链接：https://blog.csdn.net/tengyunjiawu_com/article/details/77095025

版权

本文详细介绍了如何使用Java调用阿里云的语音识别服务，适合初学者。对比了阿里云与百度语音识别的速度和准确率，阿里云在识别速度上较慢，但在准确率上有优势。调用流程包括开通服务、上传文件至阿里云OSS、设置识别参数和编写客户端代码。需要注意的是，阿里云的调用方式较为复杂，需要通过POST请求和GET请求两个步骤。文中提供了完整的Java代码示例，并指导如何解决可能出现的乱码问题。

摘要由CSDN通过智能技术生成

阿里语音识别服务java调用全程手把手详解-适合中小学生快速上手

阿里语音识别与百度语音识别的调用对比：
用例：1分30秒的录音文件
百度用时：3秒
阿里用时：30秒

识别准确率来看：阿里还算准确，百度除了个别的关键词之外其余都不大准确
二次开发方便性来说：
百度的范例稍微修改能直接运行，调用方便，返回结果简单明了
阿里不是缺少这个就是缺少那个，很多额外的包、库连个说法都没有(很无语)，调用比较复杂，获取结果更是令人无语了

第一步注册开通(免费的)：
1、进入阿里云官网(https://account.aliyun.com/login/login.htm)，申请阿里云账号。若已有阿里云账号，请忽略之。
2、到“智能语音交互服务”页面(https://data.aliyun.com/product/nls)，点击后『立即开通』。
3、(免费)在跳转后的页面，点击『立即购买』，购买语音服务。注意目前公测服务是0折，您试用的话并不收费。
4、在数加-Access Key页面(https://ak-console.aliyun.com/?spm=5176.doc30437.2.2.tA7VPD#/) 创建并获取您的Access Key 和 Access Secret。
第二步：不知道啥原因只能
不能上传本地文件进行识别，必须是阿里什么oss里面存储的文件，调用的时候指定文件的URL地址
这个阿里叫做对象存储oss，地址在：https://oss.console.aliyun.com/overview
不知道为什么叫这么个名字，就叫阿里云盘不久可以了吗，功能喵了几眼没仔细看，反正就是上传一个文件，复制一个地址出来就可以了
第三步调用需要哪些参数：
其实就四个需要的：
1、Access Key
2、Access Secret
3、文件的http链接
4、Appkey 这个从字面意思来理解完全风马牛不相及，正确的理解就是识别类型
大体上一个语音的识别分成了种方式：
一句话识别
实时语音识别
录音文件识别
用户自定义热词
自然语言理解(NLU)
每种方式又根据语音的类型、速度、比特率等分成几个小类，为了区分这个整出了一个Appkey

我因为要识别的是录音文件，所以这个Appkey有下面几个选项：
参考地址： https://help.aliyun.com/document_detail/32378.html
app_key 描述语音文件
nls-service-telephone8khz 8kHz采样率 8k语音文件
nls-service-shurufa16khz 16kHz采样率 16k语音文件
nls-service-en 16k采样率英文语音文件
nls-service-multi-domain 16kHz采样率短视频，视频直播领域，教育，娱乐，文学，法律，财经等

这个一般来说电脑录音、呼叫中心录音一般是 8k，所以我就直接选择：Appkey="nls-service-telephone8khz"