SenseVoice实现语音转文字

最新推荐文章于 2024-10-07 07:30:00 发布

baker_zhuang

最新推荐文章于 2024-10-07 07:30:00 发布

阅读量692

点赞数 8

分类专栏：大模型文章标签： SenseVoice 语音转文字大模型

本文链接：https://blog.csdn.net/qq_26881073/article/details/140849511

版权

大模型专栏收录该内容

18 篇文章 10 订阅

订阅专栏

之前使用了阿里的CosyVoice实现了文字生成语音和声音的复刻，这章使用阿里的的另一个工具，SenseVoice实现语音转文字，首先需要下载好软件，这里使用docker部署，下载好整合包后：

按照顺序执行

docker load -i sensevoice.tar
docker run -d --name sensevoice --gpus all -p 7860:7860 sensevoice:1   # 有nvidia显卡
docker run -d --name sensevoice -p 7860:7860 sensevoice:1    # 没有nvdia显卡使用cpu运算

部署完成后打开ip+7860，进入首页，可以看到上面一段介绍，下面的左侧是放入的语音消息，右侧是支持的语音类型

添加语音后，会显示语音时长，可以试听以及剪辑等操作，确认无误后，点击Start按钮开始转换，如果语音不长的话很快就完成了，我的电脑没有英伟达显卡，三十个字左右的语音只需要2~3秒就完成了。

同时，SenseVoice也是支持API调用的，可以在页面的下方看到通过API使用的字，点击可以看到开发手册。

以上就是全部内容啦。可以部署好SenseVoice和CosyVoice，再对接下大模型就可以实现语音输入和语音回复了。

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

baker_zhuang

关注关注

8
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

FunAudioLLM SenseVoice语音转录(ASR)与CosyVoice语音合成(TTS)及语音克隆使用案例；webui可视化页面操作使用

weixin_42357472的博客

07-09

1634

参考： https://fun-audio-llm.github.io/ 在线体验：https://modelscope.cn/studios/iic/CosyVoice-300M 参考：https://github.com/FunAudioLLM/SenseVoice下载：使用：参考：https://github.com/FunAudioLLM/CosyVoice 在线体验：https://www.modelscope.cn/studios/iic/CosyVoice-300M 这里docker运行

语音识别sensevoice，流式实时转录（包括vad断句，全部代码）保姆教学

qq_34717531的博客

08-19

874

模型的推理与部署SenseVoice模型提供了多种推理方式，包括使用modelscope pipeline进行推理，以及直接使用SenseVoiceSmall模型进行推理。此外，还可以使用funasr库进行推理，该库已经集成了vad（声音活动检测）模型，支持任意时长音频输入。在服务部署方面，SenseVoice模型具有完整的服务部署链路，支持多并发请求，确保了在实际应用中的高效性和稳定性。SenseVoice模型的性能测试。

7 条评论您还未登录，请先登录后发表或查看评论

本地部署 SenseVoice - 阿里开源语音大模型

engchina的专栏

07-08

2698

本地部署 SenseVoice - 阿里开源语音大模型

CosyVoice实现声音复刻

Baker的博客

07-22

1336

这里一共有5个地方需要操作，第一个输入合成文本就是你想要音色模拟你说的内容，下面选择推理模式为3s极速复刻，第三个是需要上传一段音频文件，如果没有音频文件也可以选择右侧的录音，实时录一段就可以了，下面输入prompt文本是指录音的内容转成文本放进去，方便程序比对声音读的音色，全部完成后下面选择生成音频就可以等待生成了，生成时间根据GPU性能决定。页面可以看到提供四种模式，第一个是训练音色，第二个是3s极速复刻，第三个是跨语种复刻，第四个是自然语言复刻，这里我们选择第二种，并找一段声音上传上去，

SenseVoice部署（Windows环境）+ 简易api二次开发：实现麦克风语音识别

qq_18813685的博客

08-21

2370

超快速的多功能ASR/STT（自动语音识别） SenseVoice-api简易开发应用教程

阿里音频生成大模型一次发俩还开源！ sense voice+cosy voice

莫斯特的博客

07-08

3215

AI人工智能影像技术博客

07-09

1065

阿里巴巴近期发布了开源语音大模型项目FunAudioLLM，该项目包含了两个核心模型：SenseVoice和CosyVoice。可以精准多语言识别并且进行语音克隆

SenseVoice 实测，阿里开源语音大模型，识别效果和效率优于 Whisper，居然还能检测掌声、笑声！5分钟带你部署体验

u010522887的专栏

07-23

5266

阿里开源语音大模型：语音识别效果和性能强于 Whisper，还能检测掌声、笑声、咳嗽等

使用 modelscope docker环境实现离线语音转文字

Gefangenes的博客

05-14

1500

昨天看视频发现阿里有一个语音转文字的模型(),之前处理这种需求一直都是直接调用服务商提供好的API接口突然想尝试一下本地搭建,虽然和直接调用API 没啥区别(都不知道实现细节),但是这是本地化运行,可以在内网环境运行.因为平常工作主要是java方向,顺便记录一些踩坑历史.

SenseVoice 语音识别微调技术方案

扈海波的博客

08-02

1635

该模型基于超过40万小时的多样化语音数据训练而成，能够支持超过50种语言的识别，展现出卓越的跨语言识别能力。需要找到finetune.sh脚本，根据自己的实际情况修改参数，如下图所示，一般需要修改的地方有：把使用的模型地址替换成前面下载好的模型路径、把训练和验证使用的数据集路径替换成自己的、指定日志和模型参数文件的输出路径、指定使用的训练脚本为前面下载好的FunASR下的train.py、指定训练轮次、如果担心显存不够用，可以把批次数量batch_size调小一些。

Chainlit集成Dashscope实现语音交互网页对话AI应用

最新发布

洛阳泰山的博客

10-07

614

当接收到用户的消息时，调用函数生成回复，并更新消息对象。这个应用实现了从接收用户语音输入，到自动转录为文本，再到根据文本生成回复，最后将回复转换为语音输出的全过程。通过阿里云的多个服务，它能够提供流畅的交互体验。

“SenseVoice“：智能语音识别的未来已来

步子哥的博客

07-07

1258

"SenseVoice"不仅是一个技术项目，它是智能语音技术发展的一个缩影。随着技术的不断进步和开源社区的共同努力，我们期待"SenseVoice"将为语音识别领域带来更多的创新和突破。

[docker]-使用docker部署msspeech进行文字转语音

爷来辣的博客

11-27

1579

docker

SenseVoice多语言语音理解模型之最新部署落地经验

m0_71062934的博客

07-15

3262

SenseVoice是一个专注于多语言语音识别、情感辨识和音频事件检测的模型。 SenseVoice经过超过40万小时的数据训练，支持超过50种语言的识别，效果在某些场景下优于Whisper模型。除了基本的语音转文本功能，SenseVoice还具备情感辨识能力，能够分析说话者的情绪状态，这对于构建更加人性化的交互系统非常重要。即使在较小的模型版本SenseVoice-Small中，也能在多数数据集上超越竞争对手，这意味着它在保持高性能的同时，还兼顾了计算资源的使用效率。

AI超强语音转文本SenseVoice，本地化部署教程！

淘小欣的博客

09-04

860

SenseVoice专注于高精度多语言语音识别、情感辨识和音频事件检测采用超过40万小时数据训练，支持超过50种语言，识别效果上优于Whisper模型。富文本识别：具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。模型采用非自回归端到端框架，推理延迟极低，10s音频推理仅耗时70ms，15倍优于Whisper-Large。

怎么语音转文字？快来看看这些方法

09-13

1556

为了能够方便会议记录的制作，我们通常都会将会议记录的内容录制下来，后期再根据录音的内容进行整理。但是很多小伙伴在后期整理的时候，都会感觉比较痛苦，这是因为需要一次次不断的重复听音频的内容才能完成整理的工作。其实我们只需要借助软件来讲语音转换成文字，这样就不用那么痛苦了，接下来就为大家带来如何将语音转换成文字的方法。方法一：使用布谷鸟配音转换【分享理由】批量语音识别、多种输出格式、双语种识别这是一款主打文字配音的AI智能软件，生成的配音音效能够媲美真人发音。它不单单能做到智能配音，还可以做到录音转文字、音频合

“SenseVoice“：开启智能语音识别的新篇章

步子哥的博客

07-07

2638

阿里云通义千问开源两款语音基座模型分别是SenseVoice和CosyVoice

weixin_41446370的博客

07-10

2587

阿里巴巴近期发布了开源语音大模型项目FunAudioLLM，该项目包含了两个核心模型：SenseVoice和CosyVoice。可以精准多语言识别并且进行语音克隆。SenseVoice：精准多语言识别与情感辨识。CosyVoice：自然语音生成的新标杆。

react为什么不能导入mp3文件

05-26

React本身并不限制导入mp3文件。但是，如果您想在React组件中播放音频文件，您需要使用HTML5的Audio API或第三方库，如Howler.js或React-Sound。在您的组件中导入mp3文件是可以的，但是您需要在您的代码中使用特定的方法来加载和播放它。例如，您可以在React组件中使用以下代码来加载和播放mp3文件： ``` import React, { Component } from 'react'; import audioFile from './audio.mp3'; class AudioPlayer extends Component { constructor(props) { super(props); this.audio = new Audio(audioFile); } playAudio = () => { this.audio.play(); } render() { return ( <div> <button onClick={this.playAudio}>Play Audio</button> </div> ); } } export default AudioPlayer; ``` 在上面的示例中，我们首先导入mp3文件，然后创建一个Audio对象并将其分配给组件的成员变量。然后我们定义了一个playAudio方法，该方法在单击按钮时调用audio对象的play()方法以播放音频。最后，我们将AudioPlayer组件导出以在另一个组件中使用。请注意，这只是一个简单的示例，您需要考虑更多的音频控制，如暂停、停止和音量控制等。