AI拉呱
只传播科技前沿知识,就做不一样!
展开
-
基于深度学习的音乐合成算法实例
基于深度学习的音乐合成算法可以生成高质量的音乐片段。以下是一个简化的基于深度学习的音乐合成算法实例,使用了LSTM网络来生成音乐序列。这个示例展示了如何使用LSTM网络来训练和生成音乐。原创 2024-06-02 11:45:10 · 238 阅读 · 0 评论 -
歌声合成算法流程和基于lstm的算法实例
歌声合成(Singing Voice Synthesis, SVS)是一项复杂的任务,旨在生成具有自然音质和情感的歌声。实现这种效果的算法通常涉及多个步骤,包括音高预测、音素时长预测、声学特征生成和波形生成等。基于LSTM(Long Short-Term Memory)网络的歌声合成算法是其中一种常见的方法。原创 2024-06-02 11:42:35 · 639 阅读 · 0 评论 -
歌声合成入门资源和步骤
本人从事歌声合成研究多年,有做过很多种方法。歌声合成是一项涉及音频处理和人工智能技术的复杂任务,它通常包括声音采样、特征提取、建模以及合成等步骤。原创 2024-01-21 23:27:43 · 215 阅读 · 0 评论 -
深度学习常见面试问题汇总
3)独立表示试图分开数据分布中变化的来源,使得表示的维度是统计独立的。这一节的内容比较分散,想要更好的回答这个问题,需要理解深度学习的本质——学习多层次组合(ch1.2),这才是现代深度学习的基本原理。“最佳”可以有不同的表示,但是一般来说,是指该表示在比本身表示的信息更简单的情况下,尽可能地保存关于 x 更多的信息。——层数的大小与问题的复杂度有关,而神经元的数量目前来看是随机的——网络的结构在实验时有很大的调整余地。需要强调的是,激活值的值域取决于使用的激活函数,大多数激活函数的值域都是。原创 2023-02-02 16:49:15 · 752 阅读 · 0 评论 -
视频合成:以文本作为输入合成视频
通过一句话来合成一段视频,原创 2023-01-30 19:04:10 · 652 阅读 · 0 评论 -
hmm 隐马尔科夫numpy实现版本
hmm 隐马尔科夫# -*- coding:utf-8 -*-# /usr/bin/python'''------------------------------------------------------------------------- @File Name : hmm.py @Change Activity: 1. 2021/12/21 上午9:28 : build-------------------------------------原创 2022-03-11 17:05:59 · 221 阅读 · 0 评论 -
从音频提取音高以及音符
codeimport waveimport mathdef load_wav_pitch(filename,config): '''音频提取音高''' wf = wave.open(filename, 'rb') swidth = wf.getsampwidth() RATE = wf.getframerate() window = np.blackman(config.chunk) # use a Blackman window noteLst = [原创 2022-02-17 17:28:41 · 2138 阅读 · 0 评论 -
歌声合成大纲
原创 2022-01-05 16:44:58 · 462 阅读 · 0 评论 -
基于隐马尔科夫链的歌声合成系统(sinsy)搭建教程
文章目录Dockerfile自动构建手动构建1.音源训练方法1.1.环境配置1.2 安装顺序2.3训练自己音源库2.4 开始训练rawtowav歌曲合成docker 容器中中文出现乱码关键点整体步骤文本对齐(乐谱和wav)对齐工具批量转换wav的采样频率对齐工具2praat 和转化工具安装教程An example of context-dependent label formatfor HMM-based singing voice synthesis两种搭建方法,第一种构建Dockerfile 第二种原创 2021-11-27 13:37:47 · 862 阅读 · 0 评论 -
基于神经网络的歌声合成Demo
基于神经网络的歌声合成Demo语言:日语数据集:kiritan_singing database输入musicxml file,输出音频。nnsvshttps://github.com/r9y9/nnsvs/tree/master/egs/kiritan_singing.运行时间5分钟提示这个是demo版本,入门歌声合成学习。下载 music xml 文件$ git clone -q https://github.com/r9y9/kiritan_singing安装要求nnsv原创 2021-11-25 10:48:29 · 2342 阅读 · 0 评论 -
audio2mid:音频提取主旋律
文章目录背景知识环境搭建详细代码背景知识提取音频中的主旋律,或者更具体的说就是提取音乐中的以基频为主的旋律.算法文章:https://repositori.upf.edu/handle/10230/42183可以导出midi文件或者jams格式(txt)步骤:旋律提取是从和弦录音中估计旋律的连续基频 (f0) 的任务。音符分割就是将melodia估算的连续F0曲线分为以系列的量化的音符,每个音符都有开始时间、结束时间和固定音高值。环境搭建python:3.66pip ins原创 2021-11-15 15:49:45 · 3093 阅读 · 2 评论 -
PDAugment: Data Augmentation by Pitch and Duration Adjustments for Automatic Lyrics Transcription解读
文章目录写在前面摘要前言语音和歌声数据音高时长算法核心ALT Model语言模型实验写在前面这是微软的一篇音乐歌词识别的文章<PDAugment: Data Augmentation by Pitch and Duration Adjustments for Automatic Lyrics Transcription>摘要歌词识别(Automatic lyrics transcription ,ALT),也就是歌声的语音识别.但是歌词识别不能很好的发展,主要是因为缺乏歌声与歌词成原创 2021-10-26 10:56:34 · 1013 阅读 · 0 评论 -
aubio:音乐分析库
文章目录介绍安装命令行操作切分介绍 Aubio主要是用于声音和音乐的标记分析,提取音高和速度 aubio on github: https://github.com/aubio/aubio安装pip install git+https://git.aubio.org/aubio/aubio/命令行操作时间$ aubio onset CH_1014.wav音高$ aubio pitch CH_1014.wavmidi note$ aubio notes CH_原创 2021-09-30 10:18:10 · 829 阅读 · 0 评论 -
muiscXML解析时间 速度 歌词 音符
文章目录地址音高 pitch时长乐谱解析解析代码:地址https://www.musicxml.com/音高 pitch <note> <pitch> <step>E</step> <alter>-1</alter> <octave>5</octave> </pitch> <duration>24</durat原创 2021-08-12 11:27:51 · 355 阅读 · 0 评论 -
深度学习合成歌曲的入门资源:论文和样本、资源、入门教程
文章目录深度学习合成歌曲的入门资源:论文和样本、资源音乐基础知识文件类型乐谱基础歌曲合唱专业名词论文资料汇总中文论文:英文论文语音合成基本步骤工具类汇总乐谱软件前端训练模型歌曲合成样本经典歌曲专辑训练集(部分)深度学习合成歌曲的入门资源:论文和样本、资源本gitchat是系列教程,本是入门级别的。有什么不足,博主不断更新。主讲PPT(语音合成):(https://pan.baidu.com...原创 2019-08-02 08:32:19 · 535 阅读 · 5 评论 -
语音合成demo 前端代码以及合成样本
文章目录语音合成样本语音合成demo 服务前端代码语音合成样本百度网盘 :链接: https://pan.baidu.com/s/1Jx2OLHwfv0qgk1rfTXpDFQ 密码: hv82网盘链接:链接: https://pan.baidu.com/s/1iDjyxETiimR_p25uUBXvLQ 密码: hfjf语音合成demo 服务前端代码# /usr/local/bin python# coding="utf-8"# __author__="ErrolYan"# __D原创 2020-07-06 16:58:09 · 449 阅读 · 1 评论 -
中英日韩歌声合成实战:背景知识以及合成样本试听
文章目录博客地址中英日韩歌声合成样本试听音高基频决定音高基频(基音,fundamental tone)八度的意义泛音(overtones) == 谐波 (Harmonics)后续章节安排博客地址AI之禅专注:歌声歌声算法研究,推荐学习,量化知识中英日韩歌声合成样本试听中文歌声合成样本 密码: 1w1u英文歌声合成样本1 密码: bu79英文歌声合成样本2 密码: 9cst日语歌声合成样本1 密码: mbrk日语歌声合成样本2 密码: mb原创 2021-07-19 11:02:53 · 256 阅读 · 0 评论 -
torchaudio必须熟练的14个函数
文章目录# -*- coding:utf-8 -*-# /usr/bin/pythonimport torchimport torchaudioimport matplotlib.pyplot as plt'''1.读数据'''filename = "爱江山更爱美人.wav"waveform, sample_rate = torchaudio.load(filename)print("Shape of waveform: {}".format(waveform.size()))pri原创 2021-06-17 15:10:57 · 1272 阅读 · 0 评论 -
歌声合成原理
文章目录歌声合成原理音乐四要素语音产生的机理歌声合成研究现状基于波形拼接的方法基于统计模型汉语歌声合成:歌声转换基于统计模型的汉语歌声 合成研究基频模型HMM基于HMM的声音合成框架建模尺度建模结构特征提取模型训练阶段合成阶段歌声合成的关键歌声的市场与乐谱的关系歌声的基频与乐谱的关系时间模型基频稀疏问题实际基频与乐谱差值建模颤音建模歌声合成的评价方式歌声库的建立曲目选择乐谱分析标准的MIDI示例MusicXMLxml解析基线系统搭建歌声信号分析时域分析频域分析语谱分析提取工具worldWorld 通过Che原创 2021-05-10 18:02:11 · 538 阅读 · 0 评论 -
歌声合成基本知识和工具汇总
文章目录工具音高基频(基音,fundamental tone)泛音(overtones) == 谐波 (Harmonics)分音 Partials如何看音准?清音和浊音音频合成音频基础节拍跟踪MadmompyAudioAnalysis音频特征提取工具liborsa音频特征提取工具包librosasource codeshow result工具Kaldi,虽然非常高效,表现也好,但是忒难用,不灵活,总得改C++代码;PyKaldi,虽然用上了机器学习界宠儿Python,但本质上跟Kaldi还是一回事嘛;原创 2021-05-10 17:59:59 · 336 阅读 · 0 评论 -
标注工具:parselmouth(歌声合成语音合成标注)
文章目录Parselmouthinstall画图音高处理ParselmouthParselmouthParselmouth是praat的python接口。论坛讨论地址:https://groups.google.com/g/parselmouthinstall$ pip install praat-parselmouth画图import parselmouthimport numpy as npimport matplotlib.pyplot as pltimport seab原创 2021-01-22 10:17:10 · 2178 阅读 · 2 评论 -
基于CNN的歌声合成算法论文解读
文章目录资料前沿基于DNN的歌声合成基于CNN的歌声合成损失函数样本结论资料https://n3utrino.work/前沿Title:Singing voice synthesis based on convolutional neural networks核心思路:midi 输入到CNN,预测声学特征(acoustic feature),声学特征输入到声码器得到音频。一句话:运用CNN模型将乐谱序列映射到声学特征深度神经网络是人工神经网络,其包含很多隐含层。给语音合成和原创 2021-01-21 10:20:32 · 521 阅读 · 0 评论 -
微软歌声合成算法HIFISINGER论文解读
文章目录论文题目:摘要前沿背景方法SF-gan来建模宽频率(频域)ML-gan来建模长波形(时域)其他设计实验和结果datasetsmodel config训练和合成音质对比论文题目:HIFISINGER: TOWARDS HIGH-FIDELITY NEURAL SINGING VOICE SYNTHESIS摘要高保真的歌声需要高的采样频率。高采样必定导致更宽的频率带和更长的波形序列,给歌声合成模型带来困难。hifisinger是采用48kHZ的采样频率。它包括基于自然语音的fastSp原创 2021-01-19 18:06:47 · 605 阅读 · 0 评论 -
《歌声合成系列教程2》歌声合成特征提取
音频特征提取1.timelag:时间模型特征 参考merlin2.duration 时长模型 参考merlinacoustic 语音特征 参考merlin# -*- coding:utf-8 -*-# /usr/bin/python'''------------------------------------------------- File Name : prepare_features Description : AIM: 特征提取原创 2020-11-24 15:28:00 · 944 阅读 · 0 评论 -
《歌声合成系列教程1》歌声合成数据预处理
文章目录思路介绍核心思路实现编码思路介绍核心思路基于参数化合成歌声,与merlin训练语音模型类似,时长模型、语言模型、音声模型。样本需要标注:- full label 基于htk的标注样本- 基于mono的时长标注- 语音特征从wav提取:主要包括 f0、sp、ap声码器:pyworld实现编码# -*- coding:utf-8 -*-# /usr/bin/python'''-----------------------------------------------原创 2020-11-11 09:06:35 · 640 阅读 · 0 评论 -
歌声参数法合成代码 (附录部分数据集及demo源代码)
文章目录install 环境数据集准备特征可视化训练时长和声学模型语音参数生成与波形合成主函数源代码install 环境python=3.5$ pip install pysptk pyworld librosa tqdm docopt数据集准备datasets.py# -*- coding:utf-8 -*-# /usr/bin/python'''------------------------------------------------- File Name :原创 2020-10-29 19:39:19 · 789 阅读 · 2 评论 -
歌声美化技术实施方案
歌声美化欢迎沟通交流原创 2020-10-28 10:53:27 · 372 阅读 · 0 评论 -
歌声美化歌声转换方法与方案
文章目录背景知识背景歌声转换的研究意义目前声音转换在应用中需要解决的问题技术调研共振峰法实施方案语音特征提取语音基本概念特征参数提取基于音高的歌声美化系统的研究建立基于音高的歌声美化系统背景知识背景声音转换 VC,Voice Conversion语音编码、语音识别和合成是目前语音处理技术中最引人瞩目的三个研究方向。音色转换技术涉及信号处理、人工智能、 模式识别和声学等学科领域,是一个典型的学科交叉的产物。特征参数的选取在音色转换过程中是非常关键的部分,它的精确度将直接影响着转换的效果。原创 2020-10-26 16:48:56 · 1204 阅读 · 1 评论 -
torchaudio安装与实例
文章目录torchaudioinstallAPI实例torchaudio是pytorch在音频领域的包。实现的函数有:音频输入与输出加载允许使用sox来转化为torch tensor,支持以下格式mp3, wav, aac, ogg, flac, avr, cdda, cvs/vms,aiff, au, amr, mp2, mp4, ac3, avi, wmv,mpeg, ircam加载常见的音频数据集 VCTK 或YesNo常见的音频转换Spectrogram, Ampl原创 2020-10-21 19:57:07 · 2080 阅读 · 0 评论 -
音频特征建模:音频特征提取
文章目录python_speech_features滤波器与MFCC梅尔音阶步骤计算梅尔滤波器组微分系数和加速度系数python_speech_features滤波器与MFCC任何自动语音识别系统的第一步都是提取特征。梅尔频率倒谱系数(MFCC)是广泛用于自动语音和说话者识别的功能。将信号分成短帧。假设音频信号在短时间范围内变化不大(当我们说它不变时,我们指的是统计上的,即统计上是平稳的,显然样本在不断变化。即使是短时间尺度)。这就是为什么我们将信号分成20-40ms帧的原因。对于每原创 2020-10-12 18:35:25 · 1517 阅读 · 0 评论 -
参数方法合成语音、歌声:nnmnkwii包实例教程
文章目录matplotlib in dockernnmnkwii base安装快速学习实例功能封装matplotlib in docker# 在容器内保存图片需要配置import matplotlibmatplotlib.use('Agg')nnmnkwii base安装os:linuxpip install pyworld soundfile librosa numpy matplotlib nnmnkwii快速学习实例# 在容器内保存图片需要配置import matplotl原创 2020-09-07 13:35:44 · 642 阅读 · 0 评论 -
歌声合成数据集与最新合成样本分享
歌声合成最新算法合成样本你的答案 链接: https://pan.baidu.com/s/1nRAEaluPoUXExvoj4_rNYg 密码: lu3h链接: https://pan.baidu.com/s/13rE-LYIWJ7vwnl_RaozF9g 密码: ski0不想长大 链接: https://pan.baidu.com/s/14rFtKFRcpZeTUN6yTHETww 密码: rj8n芒种 链接: https://pan.baidu.com/s/15kwa原创 2020-09-01 23:24:05 · 825 阅读 · 6 评论 -
tensorflow高级教程
https://playground.tensorflow.org/ #tensorflow网页版中文官方文档:http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030122问题及解决办法成功解决Your CPU supports instructions that this...原创 2018-11-13 23:36:40 · 392 阅读 · 0 评论 -
C++从入门到高级
文章目录C++基础教程入门实例编程实战linux 下编译c++程序=算法+数据结构C++存储类C++ 指针面向对象编程static 关键字C++ 继承C++ 多态C++重载C++ 抽象类C++命名空间C++字符串C++ 异常处理C++文件和流C++基础教程1.IDE:集成开发平台:编辑 编译 调试 推荐VS20082.www.afanihao.cn3.win10 cd /d 文件夹路径入...原创 2019-06-05 09:34:53 · 264 阅读 · 0 评论 -
librosa:音频和音乐分析
文章目录librosa安装分析步骤读取音频提取特征Log-Mel SpectrogramMFCC绘制波形图和梅尔频谱图librosaLibrosa是一个用于音频、音乐分析、处理的python工具包,一些常见的时频处理、特征提取、绘制声音图形等功能应有尽有,功能十分强大安装pip install librosa分析步骤-专业名词:- sr:采样率、hop_length:帧移、overlapping:连续帧之间的重叠部分、n_fft:窗口大小、spectrum:频谱、spectrogram:频谱原创 2020-07-21 11:17:38 · 747 阅读 · 0 评论 -
音频工具分析实例
文章目录音频特征学习toolspyworldlibrosannmnkwii音频特征学习toolspyworldinstall linux or windowspyworld:https : //github.com/JeremyCCHsu/Python-Wrapper-for-World-VocoderPitch contour(fundamental frequency, F0) 音高轮廓 基频Harmonic spectral envelope 谐波频谱包络Aperiodic sp原创 2020-07-08 10:11:15 · 978 阅读 · 0 评论 -
HMM-歌声合成语音合成
文章目录HMM隐马尔科夫模型HTK手册阅读learning HTK建立语音识别实例数据集准备训练工具Analysis Toolcoding the dataMFCC和LPCCreating Monophone HMMsHMM隐马尔科夫链随机生成的状态序列称为状态序列每个状态序列由此产生一个观测序列,称为观测序列隐马尔科夫模型隐马尔科夫模型由初始状态概率向量、状态转移概率矩阵A、观测概率矩阵B决定。隐马尔科夫链的两个假设:齐次马尔科夫假设:即假设隐藏的马尔科夫链在任意时刻t只依赖前一时原创 2020-07-01 09:05:03 · 823 阅读 · 0 评论 -
歌声合成full labels 解析(python版本)
解析代码# -*- coding:utf-8 -*-# /usr/bin/python'''import reimport numpy as npimport pandas as pdfrom keras.models import *from keras.layers import *from keras.layers import *from keras import optimizersfrom keras.utils import np_utilsimport os.pat原创 2020-05-28 15:18:35 · 373 阅读 · 0 评论 -
歌声合成:mid与xml 乐谱文件解析(3)
乐谱分析将乐谱转换为用于训练与合成的上下文标注是歌声合成系统的前端部分。标准的MIDIMIDI(music Instrument Digital interface),中文称为数字接口,是一个工业标准的电子通信协议。编号为128的MIDI消息类型为 Note On,即开始演奏一个音符;编号为144的MIDI消息类型为Note Of!f,即停 止演奏一个音符。读入 MIDI 格式文件,产生一个 n*7 的矩阵,其中矩阵的第三列表示通道标号,第四列表示音符音高,第五列表示按键的速度,然后提取代原创 2020-05-22 15:06:53 · 2230 阅读 · 0 评论 -
歌声合成-歌声库的建立(2)
文章目录歌声库的建立曲目选择标准的MIDIMusicXML乐谱分析基线系统搭建歌声基频生成方法基于乐谱基频引导的基频生成方法乐谱基频引导歌声库的建立曲目选择不是的饶舌类歌曲自由节奏曲目音高不标准的歌曲,如一些民族歌曲中出现的非标准音。选择曲目:儿童歌曲以及传统流行歌曲中得到所有拼音的覆盖声韵母分布的平衡调的覆盖和平衡节奏的覆盖和平衡标准的MIDIMIDI(music Instrument Digital interface),中文称为数字接口,是一个工业标准的原创 2020-05-20 23:53:03 · 443 阅读 · 0 评论