对接阿里asr和Azure asr

小董亮出你的8块腹肌吧！

已于 2024-09-29 15:06:04 修改

阅读量1.2k

点赞数 4

分类专栏：杂文章标签： azure microsoft asr

于 2024-09-20 10:44:26 首次发布

本文链接：https://blog.csdn.net/wang0907/article/details/142378053

版权

杂专栏收录该内容

167 篇文章

订阅专栏

1：对接阿里asr（一句话）

默认按照只有一句话识别，只有在关闭时才会返回整句话。

1.1：pom

<dependency>
    <groupId>com.alibaba.nls</groupId>
    <artifactId>nls-sdk-recognizer</artifactId>
    <version>2.2.1</version>
</dependency>

1.2：生成token

package com.dahuyou.ali.asr.generatetoken;

import com.alibaba.nls.client.AccessToken;

import java.io.IOException;

/**
 * 生成token
 * program argument参数配置："LTAI5tNg9N*****R28Zazv" "bAgAvjZwc5HVr******ADEAa"
 *
 * Token: 6599217b19214759*****42ddf0f8016, expire time: 1726774011
 */
public class GenerateToken {

    public static void main(String[] args) {
        if (args.length < 2) {
            System.err.println("CreateTokenDemo need params: <accessKeyId> <accessKeySecret>");
            System.exit(-1);
        }

        String accessKeyId = args[0];
        String accessKeySecret = args[1];
        System.out.println("accessKeyId="+accessKeyId+"; accessKeySecret="+accessKeySecret);
        AccessToken accessToken = new AccessToken(accessKeyId, accessKeySecret);
        try {
            accessToken.apply();
            System.out.println("Token: " + accessToken.getToken() + ", expire time: " + accessToken.getExpireTime());
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

其中accessKeyId和accessKeySecret通过阿里云后台获取：
在这里插入图片描述

1.3：在线asr

package com.dahuyou.ali.asr;

import java.io.File;
import java.io.FileInputStream;

import com.alibaba.nls.client.protocol.InputFormatEnum;
import com.alibaba.nls.client.protocol.NlsClient;
import com.alibaba.nls.client.protocol.SampleRateEnum;
import com.alibaba.nls.client.protocol.asr.SpeechRecognizer;
import com.alibaba.nls.client.protocol.asr.SpeechRecognizerListener;
import com.alibaba.nls.client.protocol.asr.SpeechRecognizerResponse;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
 * 此示例演示了
 *      ASR一句话识别API调用
 *      通过本地文件模拟实时流发送
 *      识别耗时计算
 * (仅作演示，需用户根据实际情况实现)
 */
public class SpeechRecognizerDemo {
    private static final Logger logger = LoggerFactory.getLogger(SpeechRecognizerDemo.class);
    private String appKey;
    NlsClient client;

    public SpeechRecognizerDemo(String appKey, String token, String url) {
        this.appKey = appKey;
        //TODO 重要提示 创建NlsClient实例,应用全局创建一个即可,生命周期可和整个应用保持一致,默认服务地址为阿里云线上服务地址
        if(url.isEmpty()) {
            client = new NlsClient(token);
        }else {
            client = new NlsClient(url, token);
        }
    }

    // 传入自定义参数
    private static SpeechRecognizerListener getRecognizerListener(int myOrder, String userParam) {
        SpeechRecognizerListener listener = new SpeechRecognizerListener() {
            //识别出中间结果.服务端识别出一个字或词时会返回此消息.仅当setEnableIntermediateResult(true)时,才会有此类消息返回
            @Override
            public void onRecognitionResultChanged(SpeechRecognizerResponse response) {
                
                //事件名称 RecognitionResultChanged、 状态码(20000000 表示识别成功)、语音识别文本
                System.out.println("name: " + response.getName() + ", status: " + response.getStatus() + ", result: " + response.getRecognizedText());
            }

            //识别完毕
            @Override
            public void onRecognitionCompleted(SpeechRecognizerResponse response) {
                //事件名称 RecognitionCompleted, 状态码 20000000 表示识别成功, getRecognizedText是识别结果文本
                System.out.println("name: " + response.getName() + ", status: " + response.getStatus() + ", result: " + response.getRecognizedText());
            }

            @Override
            public void onStarted(SpeechRecognizerResponse response) {
                System.out.println("myOrder: " + myOrder + "; myParam: " + userParam + "; task_id: " + response.getTaskId());
            }

            @Override
            public void onFail(SpeechRecognizerResponse response) {
                // TODO 重要提示： task_id很重要，是调用方和服务端通信的唯一ID标识，当遇到问题时，需要提供此task_id以便排查
                System.out.println("task_id: " + response.getTaskId() + ", status: " + response.getStatus() + ", status_text: " + response.getStatusText());
            }
        };
        return listener;
    }

    /// 根据二进制数据大小计算对应的同等语音长度
    /// sampleRate 仅支持8000或16000
    public static int getSleepDelta(int dataSize, int sampleRate) {
        // 仅支持16位采样
        int sampleBytes = 16;
        // 仅支持单通道
        int soundChannel = 1;
        return (dataSize * 10 * 8000) / (160 * sampleRate);
    }

    public void process(String filepath, int sampleRate) {
        SpeechRecognizer recognizer = null;
        try {
            // 传递用户自定义参数
            String myParam = "user-param";
            int myOrder = 1234;
            SpeechRecognizerListener listener = getRecognizerListener(myOrder, myParam);

            recognizer = new SpeechRecognizer(client, listener);
            recognizer.setAppKey(appKey);

            //设置音频编码格式 TODO 如果是opus文件，请设置为 InputFormatEnum.OPUS
            recognizer.setFormat(InputFormatEnum.PCM);
            //设置音频采样率
            if(sampleRate == 16000) {
                recognizer.setSampleRate(SampleRateEnum.SAMPLE_RATE_16K);
            } else if(sampleRate == 8000) {
                recognizer.setSampleRate(SampleRateEnum.SAMPLE_RATE_8K);
            }
            //设置是否返回中间识别结果
            recognizer.setEnableIntermediateResult(true);

            //此方法将以上参数设置序列化为json发送给服务端,并等待服务端确认
            long now = System.currentTimeMillis();
            recognizer.start();
            logger.info("ASR start latency : " + (System.currentTimeMillis() - now) + " ms");

            File file = new File(filepath);
            FileInputStream fis = new FileInputStream(file);
            byte[] b = new byte[3200];
            int len;
            while ((len = fis.read(b)) > 0) {
                logger.info("send data pack length: " + len);
                recognizer.send(b, len);

                // TODO  重要提示：这里是用读取本地文件的形式模拟实时获取语音流并发送的，因为read很快，所以这里需要sleep
                // TODO  如果是真正的实时获取语音，则无需sleep, 如果是8k采样率语音，第二个参数改为8000
                // 8000采样率情况下，3200byte字节建议 sleep 200ms，16000采样率情况下，3200byte字节建议 sleep 100ms
                int deltaSleep = getSleepDelta(len, sampleRate);
                Thread.sleep(deltaSleep);
            }

            //通知服务端语音数据发送完毕,等待服务端处理完成
            now = System.currentTimeMillis();

            // TODO 计算实际延迟: stop返回之后一般即是识别结果返回时间
            logger.info("ASR wait for complete");
            recognizer.stop();
            logger.info("ASR stop latency : " + (System.currentTimeMillis() - now) + " ms");

            fis.close();
        } catch (Exception e) {
            System.err.println(e.getMessage());
        } finally {
            //关闭连接
            if (null != recognizer) {
                recognizer.close();
            }
        }
    }

    public void shutdown() {
        client.shutdown();
    }

    // "e6hRW********ho" "659*************42ddf0f8016" "wss://nls-gateway.cn-shanghai.aliyuncs.com/ws/v1"
    public static void main(String[] args) throws Exception {
        String appKey = "你的appkey，在asr应用列表获取";
        String token = "你的token，上一步生成的，也支持在asr后台获取临时的";
        String url = ""; // 默认即可，默认值：wss://nls-gateway.cn-shanghai.aliyuncs.com/ws/v1

        if (args.length == 2) {
            appKey   = args[0];
            token       = args[1];
        } else if (args.length == 3) {
            appKey   = args[0];
            token       = args[1];
            url      = args[2];
        } else {
            System.err.println("run error, need params(url is optional): " + "<app-key> <token> [url]");
            System.exit(-1);
        }

        SpeechRecognizerDemo demo = new SpeechRecognizerDemo(appKey, token, url);
        // TODO 重要提示： 这里用一个本地文件来模拟发送实时流数据，实际使用时，用户可以从某处实时采集或接收语音流并发送到ASR服务端
        demo.process("./nls-sample-16k.wav", 16000);
        //demo.process("./nls-sample.opus", 16000);
        demo.shutdown();
    }
}

运行：
在这里插入图片描述
nls-sample-16k.wav 。

2：对接azure asr

2.1：pom

<dependency>
    <groupId>com.microsoft.cognitiveservices.speech</groupId>
    <artifactId>client-sdk</artifactId>
    <version>1.40.0</version>
</dependency>

2.2：在线asr

package com.dahuyou.azure.asr.A;

import com.microsoft.cognitiveservices.speech.CancellationReason;
import com.microsoft.cognitiveservices.speech.ResultReason;
import com.microsoft.cognitiveservices.speech.SpeechConfig;
import com.microsoft.cognitiveservices.speech.SpeechRecognizer;
import com.microsoft.cognitiveservices.speech.audio.AudioConfig;
import com.microsoft.cognitiveservices.speech.audio.PushAudioInputStream;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

public class AzureSpeechRecognition {  
  
    public static void main(String[] args) {  
        try {  
            // 替换为你的订阅密钥和区域  
            String speechSubscriptionKey = "你的订阅密钥";
            String region = "你的区域";
  
            SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechSubscriptionKey, region);
            // 设置中文
            speechConfig.setSpeechRecognitionLanguage("zh-CN");
//            PushAudioInputStream pushAudioInputStream = new PushAudioInputStream();
            PushAudioInputStream pushAudioInputStream = PushAudioInputStream.create();
            // 使用默认麦克风  
//            AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
            // Recognized: 北京的天气。
//            AudioConfig audioConfig = AudioConfig.fromWavFileInput("D:\\xiaofuge_sourcecode\\interview-master\\aliasr\\nls-sample-16k.wav");
//            AudioConfig audioConfig = AudioConfig.fromWavFileInput("D:\\test\\ttsmaker-file-2024-9-19-17-35-30.wav");
            AudioConfig audioConfig = AudioConfig.fromStreamInput(pushAudioInputStream);
            // 假设你有一个方法可以从网络接收音频流
//            InputStream audioStream = receiveAudioStreamFromNetwork();
//
//            // 准备AudioConfig（这里需要你自己实现转换逻辑）
//            AudioConfig audioConfig = prepareAudioConfig(audioStream);


            SpeechRecognizer recognizer = new SpeechRecognizer(speechConfig, audioConfig);  
  
            // 订阅事件  
            recognizer.recognized.addEventListener((s, e) -> {  
                if (e.getResult().getReason() == ResultReason.RecognizedSpeech) {
                    System.out.println("Recognized: " + e.getResult().getText());  
                }  
            });

            recognizer.recognizing.addEventListener((s, e) -> {
                if (e.getResult().getReason() == ResultReason.RecognizingSpeech) {
                    System.out.println("RecognizingSpeech: " + e.getResult().getText());
                }
            });

            recognizer.canceled.addEventListener((s, e) -> {  
                System.out.println("Canceled " + e.getReason());  
  
                if (e.getReason() == CancellationReason.Error) {
                    System.out.println("Error details: " + e.getErrorDetails());  
                }  
            });  
  
            // 开始识别  
            recognizer.startContinuousRecognitionAsync().get();


            String filepath = "d:\\test\\ttsmaker-file-2024-9-19-18-51-21.wav";
            File file = new File(filepath);
            FileInputStream fis = new FileInputStream(file);
            byte[] b = new byte[3200];
            int len;
            while ((len = fis.read(b)) > 0) {
//                recognizer.send(b, len);
                byte[] usedByte = new byte[len];
                if (len < 3200) {
                    System.arraycopy(b, 0, usedByte, 0, len);
                } else {
                    usedByte = b;
                }
                System.out.println(" usedByte send data pack length: " + usedByte.length);

//                pushAudioInputStream.write(b);
                pushAudioInputStream.write(usedByte);

                // TODO  重要提示：这里是用读取本地文件的形式模拟实时获取语音流并发送的，因为read很快，所以这里需要sleep
                // TODO  如果是真正的实时获取语音，则无需sleep, 如果是8k采样率语音，第二个参数改为8000
                // 8000采样率情况下，3200byte字节建议 sleep 200ms，16000采样率情况下，3200byte字节建议 sleep 100ms
//                int deltaSleep = getSleepDelta(len, sampleRate);
                int deltaSleep = 200;
                Thread.sleep(deltaSleep);
                usedByte = null;
            }
            pushAudioInputStream.close();
            // 保持程序运行，等待用户输入或其他方式停止  
            System.in.read();  
  
            // 停止识别  
            recognizer.stopContinuousRecognitionAsync().get();  
        } catch (Exception ex) {  
            ex.printStackTrace();  
        }  
    }

//    // 假设你有一个方法来接收网络上的音频流（这里用伪代码表示）
//    static InputStream receiveAudioStreamFromNetwork() {
//        // 使用HTTP、WebSocket等接收音频流
//        // 这里返回一个InputStream，但实际上你可能需要更复杂的处理
//        return new InputStream() {
//            // 实现InputStream的read等方法来从网络读取数据
//        };
//    }

//    // 将InputStream转换为Azure Speech SDK可以处理的格式（这里简化为直接返回）
 在实际中，你可能需要将其写入WAV文件或使用内存中的流
//    static AudioConfig prepareAudioConfig(InputStream inputStream) {
//        // 注意：Azure Speech SDK的Java版本通常不直接从InputStream读取
//        // 你可能需要将inputStream写入到WAV文件，并使用AudioConfig.fromWavFileInput
//        // 但这里我们假设有一个方法可以直接处理
//        // return AudioConfig.fromCustomStream(inputStream); // 这是一个假设的方法
//        return null; // 实际上你需要实现这个转换
//    }


}

运行：

RecognizingSpeech: 你好啊我
 usedByte send data pack length: 3200
 usedByte send data pack length: 3200
 usedByte send data pack length: 3200
RecognizingSpeech: 你好啊我是
 usedByte send data pack length: 3200
 usedByte send data pack length: 3200
 usedByte send data pack length: 3200
 usedByte send data pack length: 3200
RecognizingSpeech: 你好啊我是张三
 usedByte send data pack length: 2894
Recognized: 你好啊，我是张三。
Recognized: 
Canceled EndOfStream

ttsmaker-file-2024-9-19-18-51-21.wav 。

3：对接阿里asr（实时语音流）

3.1：pom

<dependency>
    <groupId>com.alibaba.nls</groupId>
    <artifactId>nls-sdk-transcriber</artifactId>
    <version>2.2.1</version>
</dependency>

3.2：代码

package com.dahuyou.asr.demo.ali;

import com.alibaba.nls.client.AccessToken;
import com.alibaba.nls.client.protocol.InputFormatEnum;
import com.alibaba.nls.client.protocol.NlsClient;
import com.alibaba.nls.client.protocol.SampleRateEnum;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriber;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriberListener;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriberResponse;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

/**
 * 此示例演示了：
 * ASR实时识别API调用。
 * 动态获取token。获取Token具体操作，请参见：https://help.aliyun.com/document_detail/450514.html
 * 通过本地模拟实时流发送。
 * 识别耗时计算。
 */
public class SpeechTranscriberDemoV1 {
    private String appKey;
    private NlsClient client;
    private static final Logger logger = LoggerFactory.getLogger(SpeechTranscriberDemoV1.class);

    public SpeechTranscriberDemoV1(String appKey, String id, String secret, String url) {
        this.appKey = appKey;
        //应用全局创建一个NlsClient实例，默认服务地址为阿里云线上服务地址。
        //获取token，实际使用时注意在accessToken.getExpireTime()过期前再次获取。
        AccessToken accessToken = new AccessToken(id, secret);
        try {
            accessToken.apply();
            System.out.println("get token: " + ", expire time: " + accessToken.getExpireTime());
            if(url.isEmpty()) {
                client = new NlsClient(accessToken.getToken());
            }else {
                client = new NlsClient(url, accessToken.getToken());
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    private static SpeechTranscriberListener getTranscriberListener() {
        SpeechTranscriberListener listener = new SpeechTranscriberListener() {
            //识别出中间结果。仅当setEnableIntermediateResult为true时，才会返回该消息。
            @Override
            public void onTranscriptionResultChange(SpeechTranscriberResponse response) {
                System.out.println("task_id: " + response.getTaskId() +
                    ", name: " + response.getName() +
                    //状态码“20000000”表示正常识别。
                    ", status: " + response.getStatus() +
                    //句子编号，从1开始递增。
                    ", index: " + response.getTransSentenceIndex() +
                    //当前的识别结果。
                    ", result: " + response.getTransSentenceText() +
                    //当前已处理的音频时长，单位为毫秒。
                    ", time: " + response.getTransSentenceTime());
            }

            @Override
            public void onTranscriberStart(SpeechTranscriberResponse response) {
                //task_id是调用方和服务端通信的唯一标识，遇到问题时，需要提供此task_id。
                System.out.println("task_id: " + response.getTaskId() + ", name: " + response.getName() + ", status: " + response.getStatus());
            }

            @Override
            public void onSentenceBegin(SpeechTranscriberResponse response) {
                System.out.println("task_id: " + response.getTaskId() + ", name: " + response.getName() + ", status: " + response.getStatus());

            }

            //识别出一句话。服务端会智能断句，当识别到一句话结束时会返回此消息。
            @Override
            public void onSentenceEnd(SpeechTranscriberResponse response) {
                System.out.println("task_id: " + response.getTaskId() +
                    ", name: " + response.getName() +
                    //状态码“20000000”表示正常识别。
                    ", status: " + response.getStatus() +
                    //句子编号，从1开始递增。
                    ", index: " + response.getTransSentenceIndex() +
                    //当前的识别结果。
                    ", result: " + response.getTransSentenceText() +
                    //置信度
                    ", confidence: " + response.getConfidence() +
                    //开始时间
                    ", begin_time: " + response.getSentenceBeginTime() +
                    //当前已处理的音频时长，单位为毫秒。
                    ", time: " + response.getTransSentenceTime());
            }

            //识别完毕
            @Override
            public void onTranscriptionComplete(SpeechTranscriberResponse response) {
                System.out.println("task_id: " + response.getTaskId() + ", name: " + response.getName() + ", status: " + response.getStatus());
            }

            @Override
            public void onFail(SpeechTranscriberResponse response) {
                //task_id是调用方和服务端通信的唯一标识，遇到问题时，需要提供此task_id。
                System.out.println("task_id: " + response.getTaskId() +  ", status: " + response.getStatus() + ", status_text: " + response.getStatusText());
            }
        };

        return listener;
    }

    //根据二进制数据大小计算对应的同等语音长度。
    //sampleRate：支持8000或16000。
    public static int getSleepDelta(int dataSize, int sampleRate) {
        // 仅支持16位采样。
        int sampleBytes = 16;
        // 仅支持单通道。
        int soundChannel = 1;
        return (dataSize * 10 * 8000) / (160 * sampleRate);
    }
    SpeechTranscriber transcriber = null;

    public void process(String filepath) {
        try {
            //创建实例、建立连接。
            transcriber = new SpeechTranscriber(client, getTranscriberListener());
            transcriber.setAppKey(appKey);
            //输入音频编码方式。
            transcriber.setFormat(InputFormatEnum.PCM);
            //输入音频采样率。
            transcriber.setSampleRate(SampleRateEnum.SAMPLE_RATE_16K);
            //是否返回中间识别结果。
            transcriber.setEnableIntermediateResult(false);
            //是否生成并返回标点符号。
            transcriber.setEnablePunctuation(true);
            //是否将返回结果规整化，比如将一百返回为100。
            transcriber.setEnableITN(false);

            //设置vad断句参数。默认值：800ms，有效值：200ms～2000ms。
            //transcriber.addCustomedParam("max_sentence_silence", 600);
            //设置是否语义断句。
            //transcriber.addCustomedParam("enable_semantic_sentence_detection",false);
            //设置是否开启过滤语气词，即声音顺滑。
            //transcriber.addCustomedParam("disfluency",true);
            //设置是否开启词模式。
            //transcriber.addCustomedParam("enable_words",true);
           //设置vad噪音阈值参数，参数取值为-1～+1，如-0.9、-0.8、0.2、0.9。
            //取值越趋于-1，判定为语音的概率越大，亦即有可能更多噪声被当成语音被误识别。
            //取值越趋于+1，判定为噪音的越多，亦即有可能更多语音段被当成噪音被拒绝识别。
            //该参数属高级参数，调整需慎重和重点测试。
            //transcriber.addCustomedParam("speech_noise_threshold",0.3);
            //设置训练后的定制语言模型id。
            //transcriber.addCustomedParam("customization_id","你的定制语言模型id");
            //设置训练后的定制热词id。
            //transcriber.addCustomedParam("vocabulary_id","你的定制热词id");

            //此方法将以上参数设置序列化为JSON发送给服务端，并等待服务端确认。
            transcriber.start();

            File file = new File(filepath);
            FileInputStream fis = new FileInputStream(file);
            byte[] b = new byte[3200];
            int len;
            while ((len = fis.read(b)) > 0) {
                logger.info("send data pack length: " + len);
                transcriber.send(b, len);
                //本案例用读取本地文件的形式模拟实时获取语音流并发送的，因为读取速度较快，这里需要设置sleep。
                //如果实时获取语音则无需设置sleep, 如果是8k采样率语音第二个参数设置为8000。
                int deltaSleep = getSleepDelta(len, 16000);
                Thread.sleep(deltaSleep);
            }

            //通知服务端语音数据发送完毕，等待服务端处理完成。
            long now = System.currentTimeMillis();
            logger.info("ASR wait for complete");
            transcriber.stop();
            logger.info("ASR latency : " + (System.currentTimeMillis() - now) + " ms");
        } catch (Exception e) {
            System.err.println(e.getMessage());
        } finally {
            if (null != transcriber) {
                transcriber.close();
            }
        }
    }

    public void processV1(/*String filepath*/byte[] byteData) {
//        SpeechTranscriber transcriber = null;
        try {
            if (transcriber == null) {
                //创建实例、建立连接。
                transcriber = new SpeechTranscriber(client, getTranscriberListener());
                transcriber.setAppKey(appKey);
                //输入音频编码方式。
                transcriber.setFormat(InputFormatEnum.PCM);
                //输入音频采样率。
                transcriber.setSampleRate(SampleRateEnum.SAMPLE_RATE_16K);
                //是否返回中间识别结果。
                transcriber.setEnableIntermediateResult(false);
                //是否生成并返回标点符号。
                transcriber.setEnablePunctuation(true);
                //是否将返回结果规整化，比如将一百返回为100。
                transcriber.setEnableITN(false);

                //设置vad断句参数。默认值：800ms，有效值：200ms～2000ms。
                //transcriber.addCustomedParam("max_sentence_silence", 600);
                //设置是否语义断句。
                //transcriber.addCustomedParam("enable_semantic_sentence_detection",false);
                //设置是否开启过滤语气词，即声音顺滑。
                //transcriber.addCustomedParam("disfluency",true);
                //设置是否开启词模式。
                //transcriber.addCustomedParam("enable_words",true);
                //设置vad噪音阈值参数，参数取值为-1～+1，如-0.9、-0.8、0.2、0.9。
                //取值越趋于-1，判定为语音的概率越大，亦即有可能更多噪声被当成语音被误识别。
                //取值越趋于+1，判定为噪音的越多，亦即有可能更多语音段被当成噪音被拒绝识别。
                //该参数属高级参数，调整需慎重和重点测试。
                //transcriber.addCustomedParam("speech_noise_threshold",0.3);
                //设置训练后的定制语言模型id。
                //transcriber.addCustomedParam("customization_id","你的定制语言模型id");
                //设置训练后的定制热词id。
                //transcriber.addCustomedParam("vocabulary_id","你的定制热词id");

                //此方法将以上参数设置序列化为JSON发送给服务端，并等待服务端确认。
                transcriber.start();
            }

            /*File file = new File(filepath);
            FileInputStream fis = new FileInputStream(file);
            byte[] b = new byte[3200];
            int len;
            while ((len = fis.read(b)) > 0) {
                logger.info("send data pack length: " + len);
                transcriber.send(b, len);
                //本案例用读取本地文件的形式模拟实时获取语音流并发送的，因为读取速度较快，这里需要设置sleep。
                //如果实时获取语音则无需设置sleep, 如果是8k采样率语音第二个参数设置为8000。
                int deltaSleep = getSleepDelta(len, 16000);
                Thread.sleep(deltaSleep);
            }*/

            processInBatches(transcriber, byteData, 3200);

            //通知服务端语音数据发送完毕，等待服务端处理完成。
            long now = System.currentTimeMillis();
            logger.info("ASR wait for complete");
//            transcriber.stop();
            logger.info("ASR latency : " + (System.currentTimeMillis() - now) + " ms");
        } catch (Exception e) {
            System.err.println(e.getMessage());
        } finally {
            if (null != transcriber) {
//                transcriber.close();
            }
        }
    }


    /**
     * 将大数组按批次处理
     *
     * @param array     大数组
     * @param batchSize 每批的大小
     */
    public static void processInBatches(SpeechTranscriber transcriber, byte[] array, int batchSize) throws Exception {
        // 计算总批次数量
        int totalBatches = (int) Math.ceil((double) array.length / batchSize);

        // 遍历每个批次
        for (int i = 0; i < totalBatches; i++) {
            // 计算当前批次的开始和结束索引
            int start = i * batchSize;
            int end = Math.min((i + 1) * batchSize, array.length);

            // 创建一个临时数组来存储当前批次的数据
            byte[] batch = new byte[end - start];

            // 复制数据到临时数组
            System.arraycopy(array, start, batch, 0, batch.length);

//            recognizer.send(batch, batch.length);
            transcriber.send(batch, batch.length);
            Thread.sleep(200);

//            // 处理当前批次的数据
//            processBatch(batch);
        }
    }

    public void shutdown() {
        client.shutdown();
    }

    public static void main(String[] args) throws Exception {
        String appKey = System.getenv().get("NLS_APP_KEY");
        String id = System.getenv().get("ALIYUN_AK_ID");
        String secret = System.getenv().get("ALIYUN_AK_SECRET");
        String url = System.getenv().getOrDefault("NLS_GATEWAY_URL", "wss://nls-gateway-cn-shanghai.aliyuncs.com/ws/v1");

        //本案例使用本地文件模拟发送实时流数据。您在实际使用时，可以实时采集或接收语音流并发送到ASR服务端。
//        String filepath = "nls-sample-16k.wav";
        String filepath = "d:\\test\\ttsmaker-file-2024-9-29-11-28-50.wav";

        // app key:"e6hR******v0Eho"
        // secret:"bAgAvjZ******SCpIIolADEAa"
        // url:wss://nls-gat******ghai.aliyuncs.com/ws/v1
        // app key id:LTAI5******R28Zazv
//        SpeechTranscriberDemo demo = new SpeechTranscriberDemo(appKey, id, secret, url);
        SpeechTranscriberDemoV1 demo = new SpeechTranscriberDemoV1("e6hRW******ho", "LTAI5tNg9NW******Zazv", "bAgAvjZwc******pIIolADEAa", "wss://nls-******cn-shanghai.aliyuncs.com/ws/v1");
        demo.process(filepath);
        demo.shutdown();
    }
}

ttsmaker-file-2024-9-29-11-28-50.wav 。注意修改文件路径和阿里asr相关参数为自己的。
运行测试：
在这里插入图片描述
另，如果你有模拟的或者真实的实时语音流也可以使用方法processV1(/*String filepath*/byte[] byteData) 。