长语音识别工具

面对语音识别API的时长和格式限制,作者开发了一个利用ffmpeg切割音频并结合API进行长语音识别的小工具。该工具仅用一百余行代码实现,源码已公开在GitHub上,有助于解决长音频识别问题。
摘要由CSDN通过智能技术生成

各大公司都开源了语音识别api,然而却很多限制。例如文件格式必须是pcm,每次的时长不能超过60s。当然也有一些商业的,例如讯飞。为了突破这些限制,我随手写了一个小工具,可以对长音频进行识别了。

原理很简单,就是通过ffmpeg对音频进行切割,转换,然后调用api进行识别。一百多行代码就搞定了。详情请参阅代码。希望对你有用。源码已经放在github https://github.com/kenro/Long-Speech-To-Text-for-Java

[code]

import java.io.File;
import java.util.Map;


import javax.sound.sampled.AudioFileFormat;
import javax.sound.sampled.AudioSystem;


import org.json.JSONObject;
import org.tritonus.share.sampled.file.TAudioFileFormat;


import com.baidu.aip.speech.AipSpeech;


public class SpeechToText {


	 //设置APPID/AK/SK
    public static final String APP_ID = "11106696";
    public static final String API_KEY = "Zg2KO0RxOXSnrw59mSGA6air";
    public static final String SECRET_KEY = "GW7xtLK936hMYKvf00i7vFk7tNNnGGNw";
    //自己下载ffmpeg
    publi
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值