TTS调研

晓宇码匠

已于 2023-03-21 16:54:52 修改

阅读量424

点赞数 1

文章标签：语音识别人工智能

于 2023-03-21 16:38:49 首次发布

本文链接：https://blog.csdn.net/qq_37651267/article/details/129691945

版权

TTS调研

SpeechSynthesis 语音合成（文本到语音 TTS）和 SpeechRecognition 语音识别（异步语音识别）

调用第三方语音服务商

讯飞、百度等

借助前端朗读插件实现

前端使用speak-tts插件，测试win谷歌下有效果，手机浏览器无声音

linux使用espeak生成音频文件,缺点音色生硬

得安装espeak
espeak "你好大大大" -w espeak-talk.wav -g 60  -p 70 -s 100 
可借助Ekho（余音）进行优化音色，参考网址http://www.eguidedog.net/ekho.php

借助win的edge浏览器进行生成语音

语种音色丰富，缺点受制于win系统的限制

自己训练模型

借助github的开源tts项目进行自行训练应用
缺点：费时、费力、需要懂python、训练需要有好显卡，生成语言时也需要好显卡，通常的云服务器不能进行生成(得加钱)；训练成果参考原神游戏音频

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

晓宇码匠

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

轻量化 TTS 模型近三年进展调研

agito_cheung的博客

02-18

195

以上进展和资源为近期轻量化 TTS 的核心方向，开发者可根据需求选择适合的模型和部署方案。

TTS通用播放库技术设计

杨充

03-25

1301

硬件设备需要通过tts语音向用户传递信息使用 TTS 技术为用户提供语音反馈。以便用户可以听到内容或响应！该库地址：https://github.com/yangchong211/YCToolLibTTS现状和发展语音合成又称文语转换（Text to Speech，TTS）技术，是语音处理领域的一个重要的研究方向，旨在让机器生成自然动听的人类语音。系统TTS（Text-to-Speech）介绍TTS 引擎（TTS Engine）：TTS 引擎是实际执行文本到语音转换的组件。

参与评论您还未登录，请先登录后发表或查看评论

TTS行业调研20221201

林宋的搬砖流水账

12-01

757

近两年行业&学术界语音合成方向动态

TTS开发调研总结

包子大叔的笔记

04-20

474

4.say.js 在github上拥有1.1k的星,基于node开发，实测可以使用，但是部分中文总是会读错，而且运行时有延迟，不知道是不是我配置原因(实测可以使用,使用系统自带语音进行合成，可以根据自己情况试试)5.微软AzureTTS 可以在Edge浏览器的大声朗读功能中体验(收费，有免费额度，个人认为Microsoft Xiaoxiao合成的语音是在座的声音中最清晰的,不收费的话肯定极力推荐)1.百度TTS (支持在线合成和离线合成，收费,虽然有免费额度,但就调试够用,不推荐)

merlin工具包+语音合成TTS技术调研

weixin_44138265的博客

06-28

757

merlin官方github: merlin 前言大二时做比赛从github上扒了爱丁堡大学某语音实验室做出来的toolkit叫merlin，当时啥也不会，不懂python也不懂ubuntu。因为啥都不会没人愿意和自己组队，一怒之下找了其他学院的高中同学凑数，然后一个人花了一个月的时间才把merlin在自己电脑上勉强训练起来并能生成语音。虽然现在想想当时就抄这么一个玩意儿居然花了100+小时，还通宵了好几次觉得不可理喻，但是u1s1，这绝对是我大学期间最骄傲也最充实的一段时期。经历了这次独立的出了成果的

【有奖调研】来，聊聊TTS音色定制这件事儿

HarmonyOS SDK闭源开放能力技术团队

03-08

935

音色个性化定制，一个能让文字转语音服务（TTS）在用户交互过程中注入温度的技术。文能在营销及内容交付中让品牌保持一致性，武能让开发者“音”量加持，创新开发。这个100%钢铁纯技术，也是阿民奋斗路上的“温情”伙伴。阿民生在Y世代，长在春风里，偏爱听新闻和小说，是早期有声阅读的尝鲜派。搞事业的一零年代，阿民购车一台，南来北往的通勤路，他挑选女神音色来导航。再后来，阿民结婚生了娃，他换下女神音，老婆“亲声”来导航，同事朋友要蹭车，都自觉坐后排。阿民工作忙，早出晚归是常态，陪娃这事儿上，音色定制

TTS | 一文了解语音合成经典论文/最新语音合成论文篇【20240111更新版】

热门推荐

weixin_44649780的博客

03-08

1万+

Text-to-speech(TTS)文本到语音，也就是语音合成。本文主要介绍一些语音合成的综述以及一系列经典论文。现有的语音合成的模型大多基于以下模型的核心思想。

tts espeak on linux，tts 语音识别，文字转语音

Daemon09080的博客

05-27

787

Mozilla TTS是一个基于深度学习的文字转语音项目，它使用了最新的神经网络模型和算法，可以生成高质量和逼真的语音。：eSpeak是一个基于形态分析的文字转语音引擎，它支持多种语言和口音，可以在Windows，Linux，Mac和Android等平台上运行。eSpeak的声音比较机械，但是速度快，占用空间小，适合用于嵌入式系统或屏幕阅读器。#### 最后，虽然效果不是很好，但是简单使用的话，还是够用的，语音自然度差了点，还是需要更优化调整，全部代码和工程已上传，包括源码和语音包，需要的朋友自己下吧。

铁路之声——自动播音系统（MFC完整工程文件）:利用了TTS技术，实现了word文档朗读、音乐播放

02-24

但我调研发现各基层维修工区普遍缺少铁路广播这一传统而又富有生命力的信息传播方式。又鉴于铁路人力资源及播音专业人才的限制，网络上的音乐播放器没有文档朗读功能，且很多加杂广告插件甚至木马，不适合在单位...

Edge-TTS：微软推出的，免费、开源、支持多种中文语音语色的AI工具[Python代码]

08-23

2548

Edge-TTS，由微软推出的这款免费、开源的AI工具，为用户带来了丰富多样的中文语音体验。它不仅支持多种中文语音语色，还能实现流畅自然的语音合成。

语音合成工具 Speech synthesis

04-15

语音合成工具 Speech synthesis，支持男声、女声、机器合成声，免安装，亲测可用！！！

Linux 下使用 Ekho 进行TTS文本转语音

阿乐的博客

11-13

3453

官网Ekho（余音）是一个免费、开源的中文语音合成软件。支持普通话、粤语。支持Linux、Windows和Android平台。

linux系统下可用的语音转文字方法（Fish Speech）

bugsycrack的博客

12-19

3429

浏览器自带api语音播报speechSynthesis.speak()无法自动播报问题分析及非完美解决方案

this_zq的博客

07-04

6843

这里主要说说语音播报的部分。本来觉得用浏览器自带的API来实现直接写一句话就ok了，但是没想到居然有一个bug。那就是这条语音有时候能播报，有时候就没有声音了？最近遇到一个需求，就是前端页面要实时监听后端传过来的数据，同时当后端传过来这条数据时前端界面要语音播报这条数据。* @param msg 播报的信息。* @param msg 播报的信息。//#region 语音播报封装。// 初次播报使用模拟按钮触发。'哈哈哈哈哈，这是声音~'// 添加点击事件处理程序。// 模拟用户点击事件。

微软tts linux_微软公开提供60,000项专利来帮助Linux社区

cum88284的博客

09-21

201

微软tts linuxMicrosoft announced on Wednesday that the company is joining the Open Invention Network (OIN), a group that provides a licensing platform for Linux of an estimated 2,400 companies. Ranging ...

espeak-ng很不好听

fs交流的博客

12-18

1320

espeak-ng很不好听

中文TTS 的简单实现（基于linux）之实现原理

07-16

4704

实现原理采用波形拼接的语音生成方法来实现本系统。这种方法预先建立一个庞大的语音数据库，在合成时采用恰当的技术手段挑选出所需的语音基元进行拼接，从而形成语音输出。因此，语音拼接的重点是基本语音单元的拼接，我们选取字作为基本的语音拼接单位，语音数据库由若干以字为单位的WAV样本文件组成。[1]所以实现本汉语TTS系统主要完成两项工作：第一：建立一个语音库，语音库

余音（EKHO）-文本转语音-银河麒麟V10系统

qq_29976369的博客

12-28

1898

注意：安装ekho make时提示失败（如下图）时，由于缺少gcc包，需要命令安装apt install g++------安装出问题，用下放新包安装------------------------------------将软件包复制到/opt/文件下，（下载文件下，很容易被客户删除。./configure这个文件在ekho解压后的文件内。），步骤中的命令操作都要进入/opt下的文件夹下操作。#这些必须安装的库、若不安装无法编译通过ekho库。#这些是可选择安装的库，不影响ekho源码库安装。

中文TTS 的简单实现（基于linux）之语音库的实现

08-22

5358

语音库保存着常用汉字的发音（多音的汉字只记录其一种发音，这也是本系统的一个缺陷，需要以后完善），所以先要得到一汉字集，这个汉字集包含了大部分常用的汉字，然后在根据这个汉字集，来一个个的取得汉字的发音，并且按一定的规则保存到语音库中。所以实现语音库可以分为三步： 1.1：取得常用汉字的集合 1.2：根据汉字集，使用一些朗读软件生成该汉字集的语音文件 1.3：处理汉字集语音文件的格式，使它能符合

f5 tts语音合成模型支持部署C++