语音AI
文章平均质量分 57
AI 语音相关算法、计算;asr、tts、声音识别等
loong_XL
这个作者很懒,什么都没留下…
展开
-
pyaudio VAD通过声音音频值分贝大小检测没人说话自动停止录制
np.frombuffer(data, dtype=np.short):将 data 转换为一个 NumPy 数组,数据类型为 np.short(通常是 16 位整数)。这个操作将音频数据块中的每个样本转换为一个数值。因此,temp_volume 是当前音频数据块中的最大音量值,以 16 位整数的形式表示。效果可能说话声音小可能不被监听到,需要更改QUIET_DB阈值,另外delay_time值是低于阈值多久就可以停止保存当前的语音。):计算转换后的 NumPy 数组中的最大值。原创 2024-07-24 20:09:34 · 1349 阅读 · 0 评论 -
AI多模态识别ALM大模型分享:Qwen-Audio
Qwen-Audio 接受多种音频(人类语音、自然声音、音乐和歌曲)以及文本作为输入,并输出文本。1)Qwen-Audio 声音音频对话。原创 2024-07-21 11:03:33 · 162 阅读 · 0 评论 -
TensorFlowTTS tts语音合成使用案例;tflite模型转换及加载使用
参考:https://github.com/TensorSpeech/TensorFlowTTS/tree/136877136355c82d7ba474ceb7a8f133bd84767ehttps://huggingface.co/tensorspeech/tts-fastspeech2-ljspeech-encolab运行参考:https://colab.research.google.com/drive/1akxtrLZHKuMiQup00tzO2olCaN-y3KiD?usp=sharing#原创 2024-07-18 18:39:22 · 480 阅读 · 0 评论 -
CosyVoice TTS实时语音合成语音克隆流式api接口,requests请求使用案例
参考:主要改动app.py 、cosyvoice.py两个文件,这里用的CosyVoice docker环境测试。原创 2024-07-18 10:06:44 · 2302 阅读 · 0 评论 -
CosyVoice 语音合成TTS、声音克隆自定义api服务搭建;requests请求使用
参考:https://blog.csdn.net/weixin_42357472/article/details/140213547。原创 2024-07-10 14:37:55 · 532 阅读 · 0 评论 -
FunAudioLLM SenseVoice语音转录(ASR)与CosyVoice语音合成(TTS)及语音克隆使用案例;webui可视化页面操作使用
参考:https://fun-audio-llm.github.io/在线体验:https://modelscope.cn/studios/iic/CosyVoice-300M参考:https://github.com/FunAudioLLM/SenseVoice下载:使用:参考:https://github.com/FunAudioLLM/CosyVoice在线体验:https://www.modelscope.cn/studios/iic/CosyVoice-300M这里docker运行原创 2024-07-09 19:15:08 · 887 阅读 · 0 评论 -
声音克隆:fish-speech 推理、requests访问接口案例
参考:https://hub.docker.com/r/lengyue233/fish-speechhttps://speech.fish.audio/inference/#http-api下载模型:下载的内容有->一般是符号链接,实际保存路径在符号链接后面路径下,如果需要把他复制过来会其他地方吗,可以下载镜像:需要GPU环境:进入容器后还需要运行api服务:默认音色,女生,推理时间有点长相对,需要10s;声音整体质量很不错原创 2024-07-05 11:44:21 · 476 阅读 · 0 评论 -
AI免费英语口语练习在线工具:Pi;gpt;其他大模型AI 英语学习智能体工具
https://chat.openai.com/ (网络国内使用不方便)https://pi.ai/talk (网络国内使用方便)豆包、海螺、通义、元宝等。原创 2024-07-04 15:02:26 · 356 阅读 · 0 评论 -
实时声音语音降噪算法 noisereduce使用;Nvidia broadcast、SoX、DeepFilterNet、mossformer2
Nvidia broadcast(推荐)Nvidia卡的官方下载broadcast软件也可以尝试下测试效果非常好,直接下载运行就不用管了,还有其他对声音视频加强功能在线体验地址测试也是输入文件必须要转成单声道,采样率是16000;成功降噪识别,下面降噪后波形图可以明显看出SoX(推荐)原创 2024-05-24 11:35:50 · 197 阅读 · 0 评论 -
声音音频文件波谱可视化展示;实时麦克风声音波纹显示可视化
颜色映射(colormap)来改变频谱图的颜色方案。原创 2024-07-03 17:02:31 · 527 阅读 · 0 评论 -
ChatTTS 语音合成案例
参考:使用体验:1、生成速度较慢2、声音生成随机不可控3、效果确实不错。原创 2024-05-30 09:45:11 · 705 阅读 · 0 评论 -
EmotiVoice 实时语音合成TTS;api接口远程调用
运行容器:默认运行了两个服务,8501 一个streamlit页面,另外8000是一个api接口服务。参考:https://github.com/netease-youdao/EmotiVoice。中文名字的语音,女:4519、6865、7143,男:7556、964这几个尚且能用。中文名字的语音,女:4519、6865、7143,男:7556、964这几个尚且能用。1)8000端口 api服务,这里把映射成8250。1)8501 一个streamlit页面。进入容器里查看运行服务。原创 2024-05-13 12:10:51 · 246 阅读 · 1 评论 -
openvoice v2 声音克隆使用案例
参考:https://github.com/myshell-ai/OpenVoice/blob/main/docs/USAGE.mdhttps://www.wehelpwin.com/article/49401)下载OpenVoice项目安装2)MeloTTS安装参考:https://blog.csdn.net/weixin_42357472/article/details/136320097使用使用的是OpenVoice项目的案例 demo_part3.ipynb注意:1、国内下载模型不原创 2024-04-28 10:39:13 · 409 阅读 · 0 评论 -
pyaudio silero_vad实现实时录制语音加VAD检测没人说话自动停止录制
【代码】pyaudio silero_vad实现实时录制语音加VAD检测没人说话自动停止录制。原创 2024-04-27 18:07:34 · 893 阅读 · 0 评论 -
AI大模型语音实时对话聊天机器人实现:ollama、funasr;支持语音实时语音打断;回音消除噪声抑制
ASR:funasr支持语音实时语音打断:这是通过子进程的控制创建与杀掉,这里是通过有人再次说话就打断tts参考:1)ASR(实时语音转录,支持自动vad识别)Pipe2)ollama api接口decode3) tts。原创 2024-04-19 10:52:58 · 1370 阅读 · 2 评论 -
funasr 麦克风实时流语音识别;模拟vad检测单独输出完整每句话
通过pyaudio进行实时录音,funasr进行语音实时识别。原创 2024-04-13 14:41:46 · 584 阅读 · 0 评论 -
全自动实时语音对话chatbot实现代码示例
实现类似chatgpt、通义千问实时语音聊天功能:流程:录音(vad自动停止录音)+语音识别+llm回复+语音合成。原创 2024-04-08 07:20:12 · 248 阅读 · 1 评论 -
pyaudio webrtcvad实现实时录制语音加VAD检测没人说话自动停止录制
vad检测没人说话超过2秒就自动停止录制并保存前面有人说话的音频文件。原创 2024-04-05 09:57:21 · 1002 阅读 · 0 评论 -
pyaudio 麦克风录制声音及保存wav
【代码】pyaudio 麦克风录制声音及保存wav。原创 2024-03-27 09:37:49 · 627 阅读 · 0 评论 -
FunASR 框架使用;api服务搭建
参考:安装版本:funasr 1.0.191、解耦modelscope版本限制(不再需要更新版本),所有模型不再需要指定model_revision,自动下载最新模型资源。2、根据模型自动安装该模型的三方依赖包,不再需要用户手动去安装了。原创 2024-03-26 16:32:16 · 742 阅读 · 0 评论 -
funasr VAD语音端点检测;sherpa VAD+STT识别
Voice Activity Detection 语音活性检测(VAD)也被称为语音端点检测,基本原理是判断一个区间内的音频(区间被称为一个“语音帧”),是有效语音,还是无效语音。模型下载:https://k2-fsa.github.io/sherpa/onnx/pretrained_models/offline-paraformer/paraformer-models.html#csukuangfj-sherpa-onnx-paraformer-zh-2023-03-28-chinese。原创 2024-03-03 10:01:55 · 484 阅读 · 0 评论 -
KWS 自定义唤醒词语音唤醒功能实现
安装:1、自定义唤醒词参考:https://k2-fsa.github.io/sherpa/onnx/kws/pretrained_models/index.html需要先编辑keywords_raw.txt文件,里面按规则自定义:然后运行命令,生成keywords.txt 文件:运行:keywords-file=keywords.txt 即为上面生成的keywords.txt文件后续功能可以基于这里后续实现:原创 2024-03-01 16:18:02 · 432 阅读 · 0 评论 -
LLM 聊天对话界面chatwebui 增加实时语音tts功能
聊天实时语音回复,tts,类似豆包聊天,可以实时语音回复。原创 2024-02-29 11:03:18 · 559 阅读 · 0 评论 -
pydub、playsound、pygame播放声音;gradio、streamlit页面播放声音;gradio 页面图像、视频及调用摄像头
【代码】pydub、playsound播放声音。原创 2024-02-27 16:43:50 · 1294 阅读 · 0 评论 -
TTS 快速语音合成MeloTTS;自定义api服务,flask send_file发送音频文件
参考:测试合成速度很快,中文效果也不错,中英混合效果也不错。原创 2024-02-27 13:54:15 · 763 阅读 · 0 评论 -
LLM-TTS 大模型对话语音实时回复
1)推理用的vllm,参考https://blog.csdn.net/weixin_42357472/article/details/136165481。3)tts生成 edge_tts包,微软的需要联网。2)用的openai api LLM对话接口。4)电脑播放语音 playsound包。原创 2024-02-26 17:40:30 · 779 阅读 · 0 评论 -
GPT-SoVITS 快速声音克隆使用案例:webui、api接口
参考:https://github.com/RVC-Boss/GPT-SoVITS环境:Python 3.10 PyTorch 2.1.2, CUDA 12.0安装包:1)下载项目2)下载预训练模型https://huggingface.co/lj1995/GPT-SoVITS下载模型文件放到GPT-SoVITS/GPT-SoVITS/pretrained_models/ 下3)项目GPT-SoVITS文件下运行进入这页面点击开启tts推理ui,后台会新启动一个页面9872的端口页面9原创 2024-02-23 09:41:19 · 1447 阅读 · 0 评论 -
TTS声音合成:paddlespeech、sherpa-onnx、coqui-ai
中文下载链接:https://github.com/coqui-ai/TTS/releases/download/v0.6.1_models/tts_models–zh-CN–baker–tacotron2-DDC-GST.zip。参考:https://github.com/k2-fsa/sherpa-onnx/blob/master/python-api-examples/offline-tts.py。参考:https://modelscope.cn/models?coqui-ai/TTS 语音合成。原创 2023-11-27 16:21:23 · 1452 阅读 · 1 评论