语音
文章平均质量分 87
长虹剑
珍爱动植物,保护环境。
展开
-
语音合成 TTS 相关的一些总结
没专门学过也没做过就完全靠零散的概念记录吧参考资料TTS背后的技术原理——前端和后端系统基础主要分为三部分:前端模型、声学模型、声码器其中声学模型可能还包括时长模型,不过得看具体的算法了。除了以前的拼接式方法,现在主流的 TTS 有两类:基于 tacotron 这种没有对齐信息基于fast-speech ,需要有个时长预测模型上面主要是按照声学模型区分开。声学模型:主要是把语音层面的模型变到mel 特征或者类似的语音特征这里其实是之前研究的重点,主要也是各种深度网络可以发挥作用原创 2021-11-11 17:13:49 · 4533 阅读 · 0 评论 -
ffmpeg c++ examples 理解
前言ffmpeg 编译需要装很多三方库,还要配置测试使用时大致过程如下Dffmpeg="xxx/bin/ffmpeg"inp_ffmpeg="$Dffmpeg/include/"lib_ffmpeg="$Dffmpeg/lib/"lib_mp3="xxx/libmp3lame/lib" # 其实我把h264也放这里了g++ -std=c++11 -I $inp_ffmpeg src/$NM.cpp -L $lib_ffmpeg -L $lib_mp3 -lavdevice -lavfilter原创 2020-12-14 09:45:12 · 3066 阅读 · 0 评论 -
音视频程序/库总结(ffmpeg, moviepy, librosa,pydub,sox)
慢慢总结……moviepy这个感觉非常好用,包括裁剪,之类的from moviepy.editor import VideoFileClip查时长同样有 AudioClipclip = VideoFileClip(fnm)print( clip.duration )librosaduration = librosa.get_duration(filename=line)pydubfrom pydub import AudioSegmentAudioSegment.from_wa原创 2020-09-07 12:23:51 · 1714 阅读 · 0 评论 -
音视频数据库 GRID 爬取
介绍如何爬取 GRID 数据库地址在 http://spandh.dcs.shef.ac.uk/gridcorpus/该网页比较简单,xpath直接找到需要的连接找到所有的连接# -*- coding:utf-8 -*import urllib.requestfrom lxml import etree# root_url="http://spandh.dcs.shef.ac.uk/gridcorpus/"root_url="http://spandh.dcs.shef.ac.uk/"u原创 2020-07-28 10:58:25 · 475 阅读 · 1 评论