语音识别+AI总结项目搭建回顾

会议语音转文字与AI总结

项目地址如下:

dwsjoan/SRAS: Speech Recognition and Simple AI Summary:可用于本地语音转文字、说话人分割及简易的AI总结,搭配web端操作界面。 (github.com)

这个项目的起源是堆砌模型希望能实现会议语音识别+ai总结任务,考虑到语音转文本后区分说话人能让AI更好地理解会议内容所以再加一个说话人识别。最后发现搭了半天不如funasr一套下来。写个博客回顾一下整体过程,想到哪写到哪,比较乱。 

首先去找了语音识别模型,语音转文本结果的质量是一切的基础。在github上看到了stt项目,项目用的fast-whipser并搭了一个前端界面。试了一下,fast-whipser确实很快,好像算是领军模型了。但结果会有很多繁体字,而且是按句识别的,句子和句子之间的标点要么没有要么瞎打,需要后期组合长句并添加标点。所以任务list又新加两项繁简转化和长句合并加标点。尝试使用initial_prompt "以下是普通话的句子,这是一段语音记录。" 得到的标点结果也不太好,但是,加了initial_prompt之后结果确实比加之前好。之前看到过加initial_prompt "以下是普通话内容,请转录为中文简体。" 来改进繁体字问题,但是实验中发现使用此prompt之后模型会直接把转录成繁体字的大段文本删掉。此外,whisper实验看出来的两个硬伤1.识别中文结果可能会

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值