1. 什么是预训练的模型?
预训练模型是其他人为解决类似问题而创建的模型。我们可以以其他问题训练的模型为起点,而不是从零开始构建模型来解决类似的问题。预训练模型在应用程序中可能不 是100% 准确。
2. 框架
2.1 tensorflow
这是由TensorFlow实现的用于音频生成的wavenet神经网络架构
模型:Lip reading
使用3D架构进行交叉视-听识别(唇语)
深度学习和声音处理领域的学术研究
模型:Audioset
Audioset的模型和代码
模型:DeepSpeech
自动语音识别
2.2 keras
模型:Ultrasound nerve segmentation
展示了如何使用Keras库构建用于超声波图像神经分割的深度神经网络
2.3 pytorch
端到端语音处理工具包
text2speech的深度学习
模型:Neural Sequence labeling model
序列标记模型在许多NLP任务中非常流行,例如命名实体识别(NER)、部分语音(POS)标记和单词分割
基于flow_based的语音合成生成网络
基于卷积神经网络的文本到语音的合成模型
基于DeepSpeech2架构创建网络,该架构使用CTC激活函数训练
将文本转换成声音
简单音频的输入/输出
ASR实现,自动语音识别
无条件的端到端的音频生成网络
基于flow_base的语音合成生成网络
2.4 MXNet
基于百度的DeepSpeech2,使用大规模模型构建语音到文本(STT)模型
实现音乐流派分类、音频-vec、歌曲推荐人和音乐搜索
2.5 Caffe
语音识别
参考:https://github.com/balavenkatesh3322/audio-pretrained-model