视频到音频的端到端智能聊天项目(Paraformer + Qwen2-VL + CosyVoice)

视频到音频的端到端智能聊天项目(Paraformer + Qwen2-VL + CosyVoice)

项目介绍

这是一个本地部署的从视频到音频的端到端智能聊天项目,可以选择回答的音色(比如丁老爷之类的)。为了简便,选取了本地视频作为输入,在实际项目中可以改为摄像头实时录制的视频,做到真正的实时AI聊天。

PS:本人是超级小白,如有错误请多多谅解😣😣

模型选择

功能 模型名称
语音转文字 Paraformer-large
多模态推理 Qwen2-VL-2B-Instruct-GPTQ-Int4
文字转音频(TTS) CosyVoice-300M

项目具体实现步骤

1. 语音转文字

  1. 加载并初始化模型Paraformer-large
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

def funasr_initiation():
    inference_pipeline = pipeline(
        task=Tasks.auto_speech_recognition,
        model='speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch', model_revision="v2.0.4",
        vad_model='speech_fsmn_vad_zh-cn-16k-common-pytorch', vad_model_revision="v2.0.4",
        punc_model='punc_ct-transformer_zh-cn-common-vocab272727-pytorch', punc_model_revision="v2.0.4",
        # spk_model="iic/speech_campplus_sv_zh-cn_16k-common",
        # spk_model_revision="v2.0.2",
    )
    return inference_pipeline
  1. 使用moviepy库提取输入视频中的音频并保存到项目文件夹下,并将提取到的音频输入模型中获得输出
from moviepy.editor import VideoFileClip

video = VideoFileClip(video_path)
# 提取音频
audio = video.audio
# 保存为 wav 文件
audio.write_audiofile("extracted_audio.wav")
rec_result = funasr_model(input='extracted_audio.wav')
# 提取字符串输出
response = rec_result[0]['text']

2. 多模态推理

  1. 加载并初始化多模态模型Qwen2-VL-2B-Instruct-GPTQ-Int4

    from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
    
    def qwenvl_initiation():
        model_dir = 'model_path'
    
        # default: Load the model on the available device(s)
        model = Qwen2VLForConditionalGeneration.from_pretrained(
            model_dir, torch_dtype="auto", device_map="auto"
        )
    
        # default processer
        processor = AutoPro
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

病症大系挂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值