【AIGC】AI文本转语音+语音转文本,构建专属领域转文本模型

1.引言

在AI领域,文本转语音和语音转文本技术已经取得了显著的进展。这些技术在许多领域都有广泛的应用,如语音助手、实时弹幕、通话检测等。本文我们使用阿里的语音合成和语音识别技术,实现文本转语音和语音转文本的完整流程,并讲述如何针对自己的业务构建专属转文本模型。

2.实例

现实中会有很多场景需要我们去分析语音,类似在我们实际业务中,通过用户的沟通记录去识别用户的意图,例如:用户对产品的体验、或者用户对我们产品的购买意愿等等,而这时候很多场景需要我们去完成语音转文本,再通过文本去识别用户意图,所以我们需要去尝试将语音转文本。但是这其中会存在一个问题,就是模型怎么知道你的专属名词,比如我创建了一个新APP叫咸货,但是模型是不认识这个品牌的,所以转出来的效果很难让文字百分百精准对上我们的品牌,这块是我们需要去解决的一个问题。但首先我们需要一个语音,去完成我们的实例展示。
在这里插入图片描述

2.1文本转语音

我们用阿里的CosyVoice合成对应语音,再模拟真实业务场景解决语音转文字中的实际问题。我们将这段文字转为语音: 老板,最近我们上线了一个新应用,叫咸货,您可以在上面发布您的闲置物品,也可以购买别人发布的闲置物品,非常方便。,我们特地把名称取得不寻常不叫闲货,而是叫咸货,这样模型就不知道这个品牌,所以转出来的效果很难让文字百分百精准对上我们的品牌,这块是我们需要去解决的一个问题。

2.2文字合成语音


import dashscope
from dashscope.audio.tts_v2 import *

# 设置阿里百炼API密钥
dashscope.api_key = 'sk-xxx'

model = "cosyvoice-v1"
voice = "loongbella"

synthesizer = SpeechSynthesizer(model=model, voice=voice)

audio = synthesizer.call("老板,最近我们上线了一个新应用,叫咸货,您可以在上面发布您的闲置物品,也可以购买别人发布的闲置物品,非常方便。")
print('requestId: ', synthesizer.get_last_request_id())
with open('output.mp3', 'wb') as f:
    f.write(audio)

按照官方示例代码转出了8秒的语音,然后我们接下来将这个录音上传到阿里云(或者别的平台,只要能让模型访问到这个录音就可以),我们就把这个语音当作真实业务场景,去完成分析。
在这里插入图片描述

2.3语音转文字

用阿里的paraformer模型去完成。

from http import HTTPStatus
import json
import dashscope
from dashs
评论 226
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值