目录
前言
最近在研究语音识别、合成、翻译等,由于这个玩意自己开发要消耗大量的人力和物力,之前有调研过,私有化部署至少千万起步,所以除非你们公司想专门研究语音,其它都是直接引用第三方的,在这里说明一下讯飞、微软、谷歌、有道等大厂集成效果对比,因为项目用其中某一个都满足不了条件,所以都集成了,并且封装成语音sdk,在这里只分享谷歌的demo。
测试demo链接
谷歌测试demo:需要翻墙才可以使用额
各大厂商使用体验
讯飞集成、效果说明
讯飞集成sdk路径:语音听写 Android SDK 文档 | 讯飞开放平台文档中心https://www.xfyun.cn/doc/asr/voicedictation/Android-SDK.html
优点:
讯飞中英文还是挺好的,识别速度挺快的,语音识别差不多1-2秒,语音合成1-2秒,在这里建议那种有方言要求的小伙伴优先使用这个。
缺点:
免费支持的语言太少,大部分收费有一点小贵,然后连续语音不支持,不过可以自己通过回调监听实现这种连续的效果,不过本人亲测用这种方式,让软件挂机一晚上连续开启,你会发现你的大洋瞬间就没有了。所以小伙伴们要注意了
有道集成、效果说明
优点:支持的国家挺多,新用户有50的体验金,感觉测试的时候用得飞快,语音识别速度-3秒左右,合成根据文字长短,短的挺快的差不多2-3秒,长的差不多-5秒左右
缺点:文档不是很完善,很多东西体现不出来
谷歌集成、效果说明
语言支持查看:https://cloud.google.com/speech-to-text?hl=zh-cnhttps://cloud.google.com/speech-to-text?hl=zh-cn
优点:支持的国家丰富,也支持一些少数民族
缺点:国内需要翻墙才可以调用,解决办法就是开一个转接服务器可以解决翻墙的问题,联系不上开发,完全只能自己看文档操作。
微软集成、效果说明
优点:微软分为国内和国外,建议用国内的请求速度要快一些,这里讲一下国内的合成速度,合成大概是2秒左右,识别3秒左右,网络正常的情况下。
缺点:没有自己的录音端点检测,国外服务慢得怀疑人生,国内的服务还可以,文档说明不够清晰
灵云集成、效果说明
优点:价格比较实惠,支持的少数民族语言也比较多
缺点:支持的语言较少
总结
由于我们公司最近在研究语音方面的,花了一段时间开发语音sdk,从目前测试来看,每个厂家都有各自的一些优势吧,谷歌的还不错,不过需要翻墙