语音转文字功能在安卓里面也是一个很可能用到的,虽然谷歌提供了系统自带的 TTS 功能,但是貌似很多手机厂商为了精简 ROM 把中文去掉了(以前),之前还能安装个什么讯飞语记(或其他)的软件支持一下,后面软件也不行了,并且原本免费的讯飞语音 sdk 也要付费了,很坑。
ps. 我又看了一眼手机,我的荣耀10居然只有讯飞语音引擎了,支持中文了,我记得以前还可以改成 PicoTTS 的 ,可能是手机厂商进步了,不需要控制 ROM 大小了,应该很多手机都可以默认使用系统的中文 TTS 了。
下面介绍我使用的几种办法:
系统自带 TTS
在 activity 中使用方法如下,记得销毁对象:
private TextToSpeech mTextToSpeech;
@Override
protected void onCreate(Bundle savedInstanceState) {
super.onCreate(savedInstanceState);
setContentView(R.layout.activity_main);
//初始化
mTextToSpeech = new TextToSpeech(this, new TextToSpeech.OnInitListener() {
@Override
public void onInit(int status) {
if (status == TextToSpeech.SUCCESS) {
//设置朗读语言
int supported = mTextToSpeech.setLanguage(Locale.CHINESE);
if ((supported != TextToSpeech.LANG_AVAILABLE)&&(supported != TextToSpeech.LANG_COUNTRY_AVAILABLE)) {
Toast.makeText(sAppContext, "不支持当前语言!", Toast.LENGTH_SHORT).show();
}
}
}
});
//播放语音
mTextToSpeech.speak("hello world!", TextToSpeech.QUEUE_FLUSH, null);
}
@Override
protected void onDestroy() {
if (mTextToSpeech != null) {
mTextToSpeech.stop();
mTextToSpeech.shutdown();
mTextToSpeech = null;
}
super.onDestroy();
}
下面是使用时的参数介绍:
public int speak(final String text, final int queueMode, final HashMap<String, String> params) {
return runAction(new Action<Integer>()
- text 需要转成语音的文字
- queueMode 队列方式:
QUEUE_ADD:播放完之前的语音任务后才播报本次内容
QUEUE_FLUSH:丢弃之前的播报任务,立即播报本次内容 - params 设置TTS参数,可以是null。
KEY_PARAM_STREAM:音频通道,可以是:STREAM_MUSIC、STREAM_NOTIFICATION、STREAM_RING等
KEY_PARAM_VOLUME:音量大小,0-1f - 返回值:int SUCCESS = 0,int ERROR = -1。
讯飞语音集成
讯飞语音集成要钱了,有兴趣可以看看下面这篇文章或者官网介绍:
https://blog.csdn.net/ysc332606387/article/details/78917949
使用 SoundPool 播放音频文件
之前项目有个语音报值的功能,就是播放 0 - 100 的语音,本来是想用 TTS 的,可是客户的大部分手机没有中文没法用,想想要播放的语音也不多,还不如直接用文件播放算了。后面就随便找了个生成语音的 PC 软件(很不好意思前几天删除了,可以直接网上搜文字转语音软件),生成格式为 wav,质量选择还可以的,可以自己试试,有的可能没法再安卓上播放。
有了资源后,就是播放了,一开始用音乐播放器,真是傻了,后面换成 SoundPool,下面看封装的一个类:
public class AudioManager {
@SuppressLint("StaticFieldLeak")
private volatile static AudioManager mConnectManager = null;
private final Context context;
private SoundPool soundPool;
private AudioManager(Context context) {
this.context = context;
initPoolVoice();
}
//DCL
public static AudioManager getInstance(Context context) {
if (mConnectManager == null) {
synchronized (AudioManager.class) {
if (mConnectManager == null) {
mConnectManager = new AudioManager(context);
}
}
}
return mConnectManager;
}
//初始化
private void initPoolVoice(){
//sdk版本21是SoundPool 的一个分水岭
if (Build.VERSION.SDK_INT >= 21) {
SoundPool.Builder builder = new SoundPool.Builder();
//传入最多播放音频数量,
builder.setMaxStreams(1);
//AudioAttributes是一个封装音频各种属性的方法
AudioAttributes.Builder attrBuilder = new AudioAttributes.Builder();
//设置音频流的合适的属性
attrBuilder.setLegacyStreamType(android.media.AudioManager.STREAM_MUSIC);
//加载一个AudioAttributes
builder.setAudioAttributes(attrBuilder.build());
soundPool = builder.build();
} else {
/**
* 第一个参数:int maxStreams:SoundPool对象的最大并发流数
* 第二个参数:int streamType:AudioManager中描述的音频流类型
* 第三个参数:int srcQuality:采样率转换器的质量。 目前没有效果。 使用0作为默认值。
*/
soundPool = new SoundPool(1, android.media.AudioManager.STREAM_MUSIC, 0);
}
}
//根据numb播放音频
public void playPoolVoice(final int numb){
try {
//可以通过四种途径来记载一个音频资源:
//1.通过一个AssetFileDescriptor对象
//int load(AssetFileDescriptor afd, int priority)
//2.通过一个资源ID
//int load(Context context, int resId, int priority)
//3.通过指定的路径加载
//int load(String path, int priority)
//4.通过FileDescriptor加载
//int load(FileDescriptor fd, long offset, long length, int priority)
//声音ID 加载音频资源,这里用的是第二种,第三个参数为priority,声音的优先级*API中指出,priority参数目前没有效果,建议设置为1。
final int voiceId = soundPool.load(context, getVoiceId(numb), 1);
//异步需要等待加载完成,音频才能播放成功
soundPool.setOnLoadCompleteListener(new SoundPool.OnLoadCompleteListener() {
@Override
public void onLoadComplete(SoundPool soundPool, int sampleId, int status) {
if (status == 0) {
//第一个参数soundID
//第二个参数leftVolume为左侧音量值(范围= 0.0到1.0)
//第三个参数rightVolume为右的音量值(范围= 0.0到1.0)
//第四个参数priority 为流的优先级,值越大优先级高,影响当同时播放数量超出了最大支持数时SoundPool对该流的处理
//第五个参数loop 为音频重复播放次数,0为值播放一次,-1为无限循环,其他值为播放loop+1次
//第六个参数 rate为播放的速率,范围0.5-2.0(0.5为一半速率,1.0为正常速率,2.0为两倍速率)
soundPool.play(voiceId, 1, 1, 1, 0, 1);
}
}
});
}catch (Exception e) {
//很奇怪voiceId会错乱,可能是资源加载问题
e.printStackTrace();
}
}
//根据numb找到音频资源文件
private int getVoiceId(int numb) {
try {
int id=0;
ApplicationInfo appInfo = MyApplication.getContext().getApplicationInfo();
id = MyApplication.getContext().getResources().getIdentifier("y" + numb, "raw", appInfo.packageName);
return id;
}catch (Exception e){
return R.raw.y0;
}
}
}
下面是使用:
AudioManager.getInstance(application).playPoolVoice(power);
注意一下我这里的文件保存在 raw 文件夹里面,格式是 y66.wav,因为不能以数字开头。
这里参考了这篇博客,下面是 SoundPool 相对于 MediaPlayer 的优点
-
SoundPool 适合 短且对反应速度比较高 的情况(游戏音效或按键声等),文件大小一般控制在几十K到几百K,最好不超过1M,
-
SoundPool 可以与 MediaPlayer 同时播放,SoundPool 可以同时播放多个声音;
-
SoundPool 最终编解码实现与 MediaPlayer 相同;
-
MediaPlayer 只能同时播放一个声音,加载文件有一定的时间,适合文件比较大,响应时间要是那种不是非常高的场景
结语
这里介绍了三种办法,其中讯飞 SDK 需要付费,但是功能会更多,系统自带的 TTS 可能无法支持中文,比较麻烦,最后通过 SoundPool 播放音频适合播放频率较高,但是文件不是很多的情况,看读者需要吧!
end