项目地址如下:
这个项目的起源是堆砌模型希望能实现会议语音识别+ai总结任务,考虑到语音转文本后区分说话人能让AI更好地理解会议内容所以再加一个说话人识别。最后发现搭了半天不如funasr一套下来。写个博客回顾一下整体过程,想到哪写到哪,比较乱。
首先去找了语音识别模型,语音转文本结果的质量是一切的基础。在github上看到了stt项目,项目用的fast-whipser并搭了一个前端界面。试了一下,fast-whipser确实很快,好像算是领军模型了。但结果会有很多繁体字,而且是按句识别的,句子和句子之间的标点要么没有要么瞎打,需要后期组合长句并添加标点。所以任务list又新加两项繁简转化和长句合并加标点。尝试使用initial_prompt "以下是普通话的句子,这是一段语音记录。" 得到的标点结果也不太好,但是,加了initial_prompt之后结果确实比加之前好。之前看到过加initial_prompt "以下是普通话内容,请转录为中文简体。" 来改进繁体字问题,但是实验中发现使用此prompt之后模型会直接把转录成繁体字的大段文本删掉。此外,whisper实验看出来的两个硬伤1.识别中文结果可能会
会议语音转文字与AI总结

最低0.47元/天 解锁文章
916

被折叠的 条评论
为什么被折叠?



