自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (2)
  • 收藏
  • 关注

原创 支持向量机SVM

基本模型是定义在特征空间上的间隔最大的线性分类器模型从简单到复杂可以分为三种1.线性可分SVM是指当训练数据线性可分时,通过硬间隔最大化(hard margin maximization),学习线性分类,又称为硬间隔支持向量机2.线性支持SVM是指当训练数据接近线性可分时,通过软间隔最大化(soft margin maximization),学习线性分类,又称为软间隔支持向量机...

2019-04-30 17:31:32 107

原创 Microsoft: DEV287x Speech Recognition Systems 课程笔记01

语音学是语言学研究人类语言产生的声音的一部分。它包括他们的生产(通过人的声音器官),他们的声学特性和感知。 语音有三个基本分支,都与自动语音识别有关。 发音语音学的重点是通过声道和各种发音器官来发声。声学语音学关注的是语音从说话者传递到听者的过程 听觉语音学主要研究听者对语音的接收和感知。一、因素语音的分解单位叫做音素。...

2019-04-30 17:31:16 285

原创 flow的相关数学推倒

先说一下仿射变换的概念:仿射变换就是允许图形任意倾斜,保证原来的线共点、点共线,平行关系不变,原来的中点还是中点。但不能保证原来的长度不变,也不能保证原来的角度不变。仿射变换用矩阵可以表示为参考:仿射变换、平移变换、缩放变换、剪切变换https://www.cnblogs.com/bnuvincent/p/6691189.html...

2019-04-30 17:30:22 295

原创 kaldi安装过程

1.下载kaldi的文件git clone https://github.com/kaldi-asr/kaldi.git2.进入toolscd toolscat INSTALL按照指令一步步进行extras/check_dependencies.sh#检查依赖性,没有的包按照指令安装make or make -j 4(多线程加快进度)3.进入srccd srcc...

2019-04-18 10:10:45 16157 4

原创 数据集说明文档

http://www.openslr.org/18/30个中文说话者,识别数据集maleA5、A8、A9、A33、 A35、B8、B21、D8

2019-04-17 14:28:45 2632 1

原创 shell脚本

1.执行方式bash filenamesh filename这两种方式都不需要文件有可执行性./filename要求文件是可执行脚本2.定义变量定义变量—变量名和等号之间不能有空格your_name=“runoob.com”对于已经定义过变量的引用----在变量名前面加美元符号即可echo $your_nameecho ${your_name} 变量名外面的花括号...

2019-04-16 11:25:34 632 1

原创 deep voice2:Multi-Speaker Neural Text-to-Speech

单位:百度谷歌AI Lababstract 我们提出一种利用低维度的speaker embedding,仅通过一个模型生成多个说话者的TTS增强技术。和depp voice的思路一致,增加了building block,改善了性能;对于tactron,增加了一个post-processing neural vocoder,改善了性能。在这两个目前最好的TTS系统上都证明了我们方法的有效性。证明...

2019-04-08 21:36:05 2726

原创 声纹识别GMM-UBM

背景: 说话人识别过程主要有三个模块,分别为:特征提取,模型训练以及模式匹配与判决。训练模块的内容是:从说话人提供的若干语音中 提取能反映个性的特征,并为其建立说话人模型,等待识别模块调用;识别模块的内容是:提取 待测语音特征并判断待测语音的身份。 GMM(高斯混合模型)–用多个高斯概率密度函数的加权可以平滑的逼近任意形状的概率密度函数,对实际数据有极强的表现力。GMM规模越庞大,表征力越强...

2019-04-06 19:31:32 2641 1

翻译 Voice Conversion Across Arbitrary Speakers based on a Single Target-Speaker Utterance

会议:2018interspeech作者:MengHelen, liusongxiang, sunlifaabstract 针对特定说话者的VC任务通常需要相当大数量的source-target数据,而我们想要仅通过一句source-target就完成voice conversion,我们称之为any-to-any的vc。我们做了两个系统(1)基于i-vector的vc系统,称之为IVC,使...

2019-04-05 19:11:47 686

翻译 Harvest: A high-performance fundamental frequency estimator from speech signals

abstract 用Hsrvest估计基频F0。这个算法的特点是可以获得一个可信的F0 contour并且减少voice section被误判为unvoice section的概率。第一步:通过多个不同中心频率的带通滤波器从信号中提取基频成分;然后用瞬时频率对提取的基频候选值进行提炼和打分,然后就可以在一帧估计出多个F0候选。因为一帧一帧做的基础成分提取对于短时局部噪声并不鲁棒,第二步使用一个用...

2019-04-05 10:57:00 767

原创 虚拟环境管理

conda虚拟环境管理目前可以正常跑程序的环境 keras-205(keras版本已更新至2.2.0)conda list查看安装了哪些包conda env list查看有哪些虚拟环境conda -V查看conda的版本conda 复制虚拟环境conda remove -n name --all删除虚拟环境https://www.jianshu.com/p/7265011ba3f2...

2019-04-05 10:09:24 140 1

原创 Merlin

melin的简要说明手册以及相关链接https://mtts.readthedocs.io/zh_CN/latest/merlin.html#id1merlin的官方GitHubhttps://github.com/CSTR-Edinburgh/merlinmerlin官方用户手册https://cstr-edinburgh.github.io/merlin/...

2019-04-05 10:08:29 378

原创 tmux使用

tmux使用详解 https://www.cnblogs.com/wangqiguo/p/8905081.html安装apt-get install tmuxtmux新开一个窗口ctrl+b,d退出当前窗口,但不关闭tmux kill-session -t name关闭名字为name的tmux窗口...

2019-04-04 18:29:36 295

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除