whisper+whisperx ASR加对齐, FunASR

FunASR

安装

直接借助 sensevoice 里面的 requirement.txt 安装就行
使用的时候,如果想把模型下载到指定目录就这样指定一下

export MODELSCOPE_CACHE=XXX
from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

model = AutoModel(model="paraformer-zh",  vad_model="fsmn-vad",  punc_model="ct-punc")
res = model.generate(input=fwav, batch_size_s=300)

print( res[0]["text"] )
# text = rich_transcription_postprocess(res[0]["text"])
# print(text)

初步的对齐后处理

def post_hd(result):
    # 提取文本和时间戳
    text = result[0]['text']
    timestamps = result[0]['timestamp']
    word_timestamps = []

    # 当前时间戳索引
    index = 0

    # 正则表达式匹配中文或英文字母
    #pattern = re.compile(r'[\u4e00-\u9fa5a-zA-Z]+')
    #pattern = re.compile(r'([\u4e00-\u9fa5])|([a-zA-Z]+)')
    #pattern = re.compile(r'([\u4e00-\u9fa5])|([a-zA-Z]+)|([,。!?;:])')
    pattern = re.compile(r'([\u4e00-\u9fa5])|([a-zA-Z\']+\s?)|([,。!?;:]|,\s|.\s)')

    # 在文本中查找所有匹配
    matches = pattern.finditer(text.strip
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值