Lucas23-CSDN博客

原创 CTC ： prefix beam search decode

最简单的decode方式当然是最近拿每个frame的最大概率的token，但实际应用中这种方法字错率会颇高，且无法和语言模型结合。要与语言模型结合，必须有多个candidate，但也不能够穷尽每个frame每个token的组合，故有beam search。但beam search的candidate会有很多相同的部分，相同的部分应把他们置信度加起来，否则会可能因为单一路径置信度偏小而错误排优，所以有了Prefix beam search。CTC 的 ...

2021-10-30 22:49:37 1989

原创 android 编译 openfst openblas arm64

android 编译 openfst openblas arm641 ubuntu 下载 android-ndk-r21b-linux-x86_64.zip2 下载Openblas-develop和 openfst-1.6.7cd / home/android-ndk-r21b/build/toolspython make_standalone_toolchain.py --arch arm64--api 21 --stl=libc++ --install-dir /tmp/my-a...

2021-05-11 14:49:26 767 1

原创 tacotron-2 安装及使用笔记

安装Ｔensorflow 版本及对应的CUDN.https://tensorflow.google.cn/install/sourceCUDA安装CUDA下载链接下载文件示例格式cuda_10.0.130_410.48_linux.run使用命令sh cuda_10.0.130_410.48_linux.run来安装此文件按照提示一步一步走安装完成后用命令检查是否安装成功cat /usr/local/cuda/version.txt即可查看cuda版本或者是输入...

2020-12-08 20:29:42 2878

原创 EM算法实验及理论

EM算法，全称Expectation Maximization Algorithm，译作最大期望化算法或期望最大算法，它是一种迭代算法，用于含有隐变量（hidden variable）的概率参数模型的最大似然估计或极大后验概率估计。下面先一个例子实验，来直观感受EM 算法。这里用PYTOHN 写一个可自定义生成概率的01分布：例如 index = random_index([70, 30]) 则为 P(index=0) = 0.7 ， P(index=1) = 0.3。生成100个.

2020-08-27 11:41:04 1062 1

原创 Real-Time-Voice-Cloning　安装使用笔记

Real-Time-Voice-Cloning　安装使用Real-Time-Voice-Cloning　是“Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis（SV2TTS）”论文的实现，这是一个三阶深度学习框架，允许从几秒钟的音频中创建一个数字化的语音，并使用它来调节训练的“文本转语音”模型，以推广到新的声音．源码地址：https://github.com/CorentinJ/Re

2020-08-03 17:19:53 12424 3

原创 WEBRTC中VAD算法及思想的数学解析

1 子带划分滤波器 SplitFilter1.1 全通滤波器 AllPassFilter从函数中tmp32 = state32 + filter_coefficient * *data_in;state32 = (*data_in * (1 &amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;

2018-11-21 21:11:48 9694 10

原创基于最小均方误差短时谱估计的语音增强

1 基于最小值控制的噪声估计Cohen 和 Berdugo 提出了一种基于最小值控制的递归平均（MCRA: Minima Controlled Recursive Averageing）方法来估计噪声。该方法由带噪语音的局部能量值与一定时间范围内的最小值的比较判断某个子带（频点）是否存在语音。如果该子带存在语音则不更新噪声谱，如果不存在则跟带噪语音的功率谱进行加权更新。具体实现流程： 1...

2018-03-21 20:25:25 3792 1

原创基于FEC信道编码丢包恢复技术

FEC 前向差错恢复编码FEC 是一种前向差错恢复编码技术，是通过对原生信息序列进行编码生成监督码，这些监督码作为冗余信息序列与原生信息序列一起被传输，当原生信息序列发生错误或丢失，可通过冗余信息序列以一定能力恢复原生信息序列。对于生成的冗余数据，我们希望生成数据大小范围与原生数据一致，以免使用更多冗余来表示，比如在计算机中，以一个字节单位的数据来生成的编码数据我们不希望是个两个字节或更大...

2017-11-02 19:39:23 2073

原创最小均方自适应滤波器

自适应滤波器自适应滤波器由参数可调的数字滤波器和自适应算法两部分组成。数字滤波器可以是有限型FIR或无限型IIR。IIR滤波器有正向通路和反馈通路，可能产生不稳定信号导致滤波器振荡，而FIR只有正向通路，处理简单，在自适应滤波中，一般采用FIR滤波器。自适应滤波器实际是一种能够跟踪输入信号的统计特性变化，按照最优滤波准则，调节自身参数的，计算最优滤波效果的特殊维纳滤波器。最优滤...

2017-09-26 15:42:33 4232

转载计算机视觉领域

计算机视觉领域做机器视觉和图像处理方面的研究工作，最重要的两个问题：其一是要把握住国际上最前沿的内容；其二是所作工作要具备很高的实用背景。解决第一个问题的办法就是找出这个方向公认最高成就的几个超级专家(看看他们都在作什么)和最权威的出版物(阅读上面最新的文献)，解决第二个问题的办法是你最好能够找到一个实际应用的项目，边做边写文章。做好这几点的途径之一就是利用网络资源，利用权威网站

2012-08-10 14:38:11 1806

转载机器视觉界的大师

机器视觉界的大师 Michael I. Jordan：统计学习方向的大大大大牛，曾经在MIT任教授10年，现在在加州大学伯克利分校任教授。他的学生几乎遍历美国CS方向的前20的所有高校。其中Andrew Ng是他的学生。Jordan的主页是：http://www.cs.berkeley.edu/~jordan/ Andrew Ng：斯坦福大学人工智能实验室的director，虽然现

2012-08-01 14:41:37 2518

翻译解析解与数值解

解析解与数值解在解组件特性相关的方程式时，大多数的时候都要去解偏微分或积分式，才能求得其正确的解。依照求解方法的不同，可以分成以下两类：解析解和数值解。解析解(analytical solution)就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解, 他人可以利用这些公式计算各自的问题.所谓的解析解是一种包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形

2012-05-27 01:45:10 1313

I think，therefore i am