长语音识别工具

最新推荐文章于 2024-10-15 11:46:26 发布

老K的代码世界

最新推荐文章于 2024-10-15 11:46:26 发布

阅读量3.1k

点赞数 3

本文链接：https://blog.csdn.net/janeky/article/details/79972533

版权

面对语音识别API的时长和格式限制，作者开发了一个利用ffmpeg切割音频并结合API进行长语音识别的小工具。该工具仅用一百余行代码实现，源码已公开在GitHub上，有助于解决长音频识别问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

各大公司都开源了语音识别api，然而却很多限制。例如文件格式必须是pcm，每次的时长不能超过60s。当然也有一些商业的，例如讯飞。为了突破这些限制，我随手写了一个小工具，可以对长音频进行识别了。

原理很简单，就是通过ffmpeg对音频进行切割，转换，然后调用api进行识别。一百多行代码就搞定了。详情请参阅代码。希望对你有用。源码已经放在github https://github.com/kenro/Long-Speech-To-Text-for-Java

[code]

import java.io.File;
import java.util.Map;


import javax.sound.sampled.AudioFileFormat;
import javax.sound.sampled.AudioSystem;


import org.json.JSONObject;
import org.tritonus.share.sampled.file.TAudioFileFormat;


import com.baidu.aip.speech.AipSpeech;


public class SpeechToText {


	 //设置APPID/AK/SK
    public static final String APP_ID = "11106696";
    public static final String API_KEY = "Zg2KO0RxOXSnrw59mSGA6air";
    public static final String SECRET_KEY = "GW7xtLK936hMYKvf00i7vFk7tNNnGGNw";
    //自己下载ffmpeg
    publi

最低0.47元/天解锁文章