MachineLearning
文章平均质量分 89
u012436149
这个作者很懒,什么都没留下…
展开
-
矩阵向量乘的三种几何解释
Ax=y Ax=y Ax=y的三中几何解释为:将AAA看做坐标系: 以 AAA 为 基的坐标 xxx, 在 III 中的坐标为yyy将 AAA 看做空间变换: III 中的点 xxx, 经过空间变换 AAA 后, 会落在哪个位置(以III为基)根据公式 x=A−1yx=A^{-1}yx=A−1y 可以看出第三种解释, 这个公式表示了3. 以 III 为基的点 yyy, 在坐...原创 2019-10-15 10:26:27 · 1468 阅读 · 0 评论 -
维特比算法
统计学习方法 (李航) 维特比算法例题 的代码实现, (HMM 预测)import numpy as npnum_hidden_states = 3num_observations = 2 # 红, 黑obs_map = {'红': 0, '白': 1}# matrix[t-1, t] ===> t-1 --> ttransition_matrix = np.array...原创 2018-04-08 16:41:43 · 952 阅读 · 0 评论 -
机器学习-音频资料总结
[1] Filter Banks And MFCC [2] Speech Recognization with Deep Learning [3] Digital Audio Fundamentals [4] ()原创 2018-03-13 17:40:54 · 1956 阅读 · 0 评论 -
Probabilistic decoder, Bayesian neural network, Probabilistic encoder
最近在看概率模型,看到这三种模型的时候老是分不开谁是谁,在此做个总结加强记忆。Probabilistic decoder Probabilistic decoder 的概率图模型 Probabilistic decoder是通过coding theory对 likelihood(p(xn|zn)p(xn|zn)p(x^n|z^n))进行重新解释。p(xn|zn)p(xn|zn)p(...原创 2017-03-04 14:09:02 · 1372 阅读 · 0 评论 -
变分推断(variational inference)
大家对贝叶斯公式应该都很熟悉 P(Z|X)=p(X,Z)∫zp(X,Z=z)dzP(Z|X)=p(X,Z)∫zp(X,Z=z)dzP(Z|X)=\frac{p(X,Z)}{\int_z p(X,Z=z)dz}我们称P(Z|X)P(Z|X)P(Z|X)为posterior distribution。posterior distribution的计算通常是非常困难的,为什么呢? 假设ZZZ是一...原创 2017-02-12 12:13:49 · 21095 阅读 · 1 评论 -
信息熵(entropy)
information entropy信息熵用来描述信息的不确定性,如果不确定性越高,那么信息熵越大,否则则越低。自信息(信息量)I(X)称为自信息,I(x)=−logP(x)I(x)=-logP(x)。通过公式可以看出,P(x)P(x)越大,自信息就越小。当然,如果一件事情发生的概率为1,那么他的自信息就是0.信息熵假设X的分布为P(X),那么其信息熵为: H(X)=E[I(X)]=∑ip(xi原创 2017-01-09 11:33:22 · 8792 阅读 · 0 评论 -
两种交叉熵损失函数的异同
两种形式的交叉熵损失函数在学习机器学习的时候,我们会看到两个长的不一样的交叉熵损失函数。 假设我们现在有一个样本 {x,t}\{ x,t\}。 * −tjlog(yj)-t_j\text{log}(y_j), t_j说明样本的ground-truth是第j类。−∑itilog(yi)+(1−ti)log(1−yi)-\sum_it_i\text{log}(y_i)+(1-t_i)\text{l原创 2017-04-07 21:26:56 · 8804 阅读 · 6 评论 -
softmax交叉熵与最大似然估计
# softmax 交叉熵与最大似然估计其实我们常用的 softmax 交叉熵损失函数,和 最大似然估计是等价的。首先来看 softmax 交叉熵目标函数是什么样子的: 对于N个样本 obj=−∑nNy(n)jlogf(x(n);w)j=−∑nNlogf(x(n);w)j\begin{aligned}obj &= -\sum_n^N y^{(n)}_j\log f(x^{(n)};w)_j原创 2017-09-16 21:11:35 · 3925 阅读 · 6 评论 -
理解马尔可夫平稳条件
理解Markov平稳条件看到西瓜书的近似推断的地方,蹦出来一个马尔可夫平稳条件, p(xt)T(xt−1|xt)=p(xt−1)T(xt|xt−1)p(x^t)T(x^{t-1}|x^t)=p(x^{t-1})T(x^{t}|x^{t-1}),看到这着实蒙了一会,之后查找一些资料后,终于搞明白这个公式是怎么来的了。Markov Chain马尔可夫链是由一个条件分布表示的P(Xt+1|Xt)P(X_原创 2016-12-02 16:49:51 · 9628 阅读 · 5 评论 -
神经网络如何防止过拟合(总结)
如何防止神经网络过拟合获取更多的数据选择正确的模型将多个模型平均贝叶斯方法如何选择正确的模型正则项L1L2early stoping输入加噪声权重加噪声dropoutL1:会将很多权重约束为0,稀疏特征。 L2:会使很多权重得到小值,这样就会使网络大部分工作在线性部分,减弱网络的能力。 early stoping:将权重初始化为小值,这时,只会用到神经网络的线性部分,网络原创 2017-04-09 21:12:18 · 7990 阅读 · 0 评论 -
机器学习常用术语: epoch batch_size iteration
one epoch = one forward pass and one backward pass of all the training examplesbatch size = the number of training examples in one forward/backward pass. The higher the batch size, the more memory spa翻译 2017-03-14 22:02:26 · 6847 阅读 · 0 评论 -
神经网络激活函数总结
激活函数总结sigmoidtanhReLULeaky ReLUMaxoutELUsigmoid数学表示: y=11+e−xy = \frac{1}{1+e^{-x}} 不建议使用,容易饱和tanh数学表示: y=e2x−1e2x+1y = \frac{e^{2x-1}}{e^{2x+1}}ReLU数学表示: y=max(0,x)y = max(0, x) 建议使用原创 2017-03-29 14:05:24 · 1392 阅读 · 0 评论 -
Andrew NG 在2016 NIPS 上tutorial 简单总结
Andrew NG 在2016 NIPS 上tutorial 简单总结神经网络已经出现很多年,为什么最近广泛应用起来大数据计算机能力的增强DL分类普通DL(全连接)1-D序列模型(RNN,LSTM,GPU)图像模型,2-D,3-D, CNN其它类别:无监督学习,增强学习。趋势模型规模不断增大端到端学习 (Rich output) 现在大多数机器学习算法只是输出一个值,但深度学习原创 2017-04-08 14:45:09 · 1261 阅读 · 0 评论 -
batch&stochasic gradient descent
stochastic gradient descent 和 batch gradient descent水平有限,如有错误,请指正! 本文不是对梯度下降进行推倒,只是介绍两者的区别.以Linear Model 为例. 注: x(i)jx_j^{(i)} 表示第i个样本的第j个特征的值batch gradient descentbatch gradient descent 是考虑了batch中所原创 2016-11-04 20:42:55 · 843 阅读 · 0 评论 -
一维高斯混合模型EM算法实现
# -*- coding: utf-8 -*-# for multi-Gaussian__author__ = "KeithYin"import numpy as npdef gaussian(x,mu,sigma): temp = -np.square(x-mu)/(2*sigma) return np.exp(temp)/(np.sqrt(2.0*np.pi*sigma))原创 2016-12-10 10:47:01 · 4111 阅读 · 5 评论 -
word2vec
word2vec为什么要进行embeddingword2vec就是对word进行embedding首先,我们知道,在机器学习和深度学习中,对word的最简单的表示就是使用one-hot([0,0,1,0,0…..]来表示一个word). 但是用one-hot表示一个word的话,会有一些弊端:从向量中无法看出word之间的关系((wworda)Twwordb=0(w^{word_a})^Tw^{wo原创 2016-11-18 11:03:42 · 1363 阅读 · 0 评论