机器学习
forwiat
脚踏实地,仰望星空
展开
-
机器学习(一)基本概念与信息熵
慢慢来入手机器学习吧。基本概念网上或者书中都有一大堆,理解个大概就行,至少懂得一些专业术语,以便于之后能够在神经网络的学习中至少能看懂。信息熵。。。这是什么东西呢?相当于化学中的熵,我记得高中化学说过,熵是描述分子(是的吧?)有序程度的量。熵越大,越无序。这里的信息熵类似,熵越大,则表示信息越无序,这里,我盗用一下别人举的例子:一个事件或一个系统,准确的说是一个随机变量,它有着一定的不确定性。原创 2017-09-01 15:23:58 · 766 阅读 · 0 评论 -
【机器学习】【Highway Network】
文章转自:https://zhuanlan.zhihu.com/p/35019701原文链接:Highway Networks(2015)传统神经网络,一般对输入做一个非线性变换H来得到输出output:x表示输入,W_H表示权重。而高速公路网络基于门机制,引入了transform gata T和carry gate C,输出由两个门来控制:设置C=1-T,公式就变成了...转载 2018-08-30 15:01:05 · 3827 阅读 · 0 评论 -
【机器学习】【Deep Residual Learning】
本文转自:http://jermmy.xyz/2017/09/25/2017-9-25-paper-notes-deep-residual-learning/,觉得作者写的很好,也注意到是作者自己开发的一个总结学习的一个web系统,怕作者关服务器后,想看再也看不到了的情况= = 所以厚着脸贴了过来。若有冒犯,立刻删除。Deep Residual Learning深度神经网络在训练过程中容易...转载 2018-08-29 22:51:28 · 436 阅读 · 0 评论 -
【机器学习】【seq2seq模型与attention机制,Beam Search】
Beam Search一张图来表示贪心的做法:每次选择输出概率最大的那个单词,但是这样无法保证最终整体概率最大;而集束搜索每次会选择Beam个概率最大的单词(Beam表示每次选择单词数,本例中为3),然后进行下一步...直到最后会得到Beam个句子,挑出概率最大的那句就可以了。seq2seq模型依赖于encode和decode两个模块。encoder用于对输入序列编码,decorder...原创 2018-08-28 22:30:52 · 3792 阅读 · 6 评论 -
【机器学习】【CNN,Padding,Stride,Pooling,FC】
贴图来自网易云课堂。图像通道nc与滤波器通道是一样的,nc'表示提取图像的nc'个特征。例如垂直特征滤波器[1 0 -1][1 0 -1][1 0 -1](这里只写了下二维的filter)一种卷积神经网络实例: 在每层卷积层后接上池化层,池化层的超参数是人为设定的,不是训练出来的,一般可以设置为别人文献里的训练效果较好的超参数。最后通过一个全连接层。图例中,FC...原创 2018-08-27 21:14:03 · 3151 阅读 · 0 评论 -
【机器学习】【Word Embedding,Word2Vec之Skip-Gram模型与负采样】
一个单词或者一个字,要被计算机理解,那就要使其变成一个对应的值,这个值可以是vector。要在程序中运用,一个想法就是构造词汇表,然后对照词汇表,对某个单词或字构造出一个向量。例如,假设有一张10000维度的词汇表,第1个单词是a,第2个是...直到第10000个单词是zelu,那么单词a对应的vector是(1,0,0,...,0)^T,只有第一个位置是1,其余位置都是0的1000维度的向量...原创 2018-08-22 17:38:45 · 1519 阅读 · 0 评论 -
【机器学习】【RNN中的梯度消失与梯度爆炸】
学习speech synthesis的Tacotron模型,而Tacotron是基于seq2seq attention,RNN中的一类。所以得先学习RNN,以及RNN的变种LSTM和GRU。RNN的详细我这里不再介绍了,许多神犇的博客及网上免费的课程讲得都很详细。这里仅说明RNN中的梯度消失与梯度爆炸。文章若有错误,烦请大家批评指正。以经典RNN为例,假设我们的时间序列只有三段,S0为...原创 2018-08-12 23:58:00 · 2982 阅读 · 1 评论 -
【机器学习】【PCA,SVM,K-Means】
PCA,全称Principal Component Analysis,主成分分析,用于数据压缩,加快训练速度。PCA降维,消除训练集中冗余特征,例如:数据集中有一类特征是厘米长度,又有一类特征是英寸长度。在处理音频的时候,有那么大维度的特征,我们不可能人工的检查出这类冗余特征,就需要进行PCA降维。具体的PCA降维过程及原理什么的,网上肯定有很多解释,这里只总结一下PCA降维一些具体操作。...原创 2018-08-16 18:30:30 · 1904 阅读 · 0 评论 -
语音识别原理
第一步:采样人的声音频率是有范围的,所以采样也应当选取范围。采样率是最低频率的2倍,此乃常识。至于最低频率怎样定,可以根据实际情况。1、注意你的麦克风,有些麦克风是有接受范围的,把频率定得比麦克风的能力极限还低,显然是浪费。2、用途。如果是要求可靠性很高的系统,则要注意加大频率范围。如果要求实时性比较高,那就要考虑处理机的速度了,数据量和频宽是正比的。3、性别。男人的低音部分比女人转载 2017-10-15 23:20:45 · 650 阅读 · 0 评论 -
机器学习笔记(二)模型评估与选择
2.模型评估与选择2.1经验误差和过拟合不同学习算法及其不同参数产生的不同模型,涉及到模型选择的问题,关系到两个指标性,就是经验误差和过拟合。1)经验误差错误率(errorrate):分类错误的样本数占样本总数的比例。如果在m个样本中有a个样本分类错误,则错误率E=a/m,相应的,1-a/m称为精度(accuracy),即精度=1-错误率。误差(error)转载 2017-09-18 20:52:35 · 2371 阅读 · 1 评论 -
【机器学习】【DTW】
转自:https://blog.csdn.net/zouxy09/article/details/9140207一、概述 在大部分的学科中,时间序列是数据的一种常见表示形式。对于时间序列处理来说,一个普遍的任务就是比较两个序列的相似性。在时间序列中,我们通常需要比较两端音频的差异。而这两段音频的长度大部分是不相等的。在语音处理领域上表现为不同人的语速不同。即时同一个人不同一...转载 2018-09-10 17:44:37 · 29540 阅读 · 4 评论