![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音合成
m0_46483236
这个作者很懒,什么都没留下…
展开
-
音频特征范围
pitch:energy:原创 2023-02-23 16:07:54 · 10029 阅读 · 1 评论 -
将一句汉字文本转化为对应的拼音
语音合成时,数据预处理,需要将一句汉字文本转化为对应的拼音,其中,汉字文本包含标点符号,而拼音含有声调不含标点符号。输出:she4 zhi4 wen2 jian4 ming2 zen3 me5 yang5。输入:“设置文件名,怎么样?原创 2022-09-22 15:08:11 · 2538 阅读 · 0 评论 -
利用 sox 命令拼接两个wav文件
其中,sox 被称为声音转换、音频处理中的瑞士军刀,它是一个命令行式的音频处理工具,特别适合去进行快速、简单的编辑和进行批处理,如果你需要一个交互、图形界面的音频编辑器,使用audacity。比如,将 sample1.wav 和 sample2.wav 拼接成 sample12.wav。实际场景中,需要将两个wav文件进行拼接操作。原创 2022-09-15 11:42:03 · 1823 阅读 · 0 评论 -
利用Linux中file命令查看音频文件的采样率
有时,在处理音频文件时,需要知道该音频文件的采样率,那如何查看呢?可以通过Linux中的file命令来查看音频文件的采样率。具体如下:$ file xxxx.wav实例:$ file Dataset/DYBW/re_1_24/spk_0000/0001_0001_0001.wav>> Dataset/DYBW/re_1_24/spk_0000/0001_0001_0001.wav: RIFF (little-endian) data, WAVE audio, Microso原创 2022-03-19 11:40:48 · 4058 阅读 · 0 评论 -
利用 python 获取一段音频的时长信息
为了统计大量音频的时长信息,比如总时长、平均时长、最大最小时长等,采用人工进行逐个的统计是不现实的,这就需要利用python进行批量处理。那如何利用python获取一段音频的时长信息呢。具体如下:wav_path = ''with open(wav_path, 'rb') as f: time_count = f.getparams().nframes/f.getparams().framerateprint(time_count)那如何统计大量音频的总时长、数量、平均时长、最大原创 2022-03-12 17:42:11 · 8551 阅读 · 0 评论 -
汉字拼音转换工具(Python版)
Documentation:汉字拼音转换工具(Python 版) — pypinyin 0.46.0 文档 GitHub:GitHub - mozillazg/python-pinyin: 汉字转拼音(pypinyin) License: MIT license PyPI:pypinyin · PyPI Python version: 2.7, pypy, pypy3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 3.10Github:mozillazg/pyth...原创 2022-03-07 16:58:05 · 178 阅读 · 0 评论 -
常见的语音相关的基本特征
1. 语音的三要素:音高 Pitch (音调) 由声源振动频率(Frequency)决定。单位:赫兹Hz 音色 Timbre 声音的特性,由声源、声道确定。 音强 Loudness (响度) 人主观的音量大小。由声音振幅(Amplitude)及人离声源的距离决定。单位:分贝dB 2. 和语音韵律(speech prosody)相关的三个重要特征:音高 pitch 时长 duration 能量 energy3. 和基频(F0)相关的特征:基频 F0 ...原创 2021-12-28 17:47:44 · 3178 阅读 · 0 评论