muye5-CSDN博客

原创 Entropy concept

Entropy:Specific Conditional Entropy:Conditional Entropy:Cross Entropy:Kullback-Leibler Divergence:Mutual Information:

2014-11-25 21:53:14 798

转载 Neural Netowrk : BackPropagation

截取自 Learn from data课件

2014-11-09 22:33:04 715

原创 Latent Dirichlet Distribution

1. 2.

2014-11-07 23:22:41 1089

转载支持向量机之SMO

[原文]机器学习算法与Python实践之（二）支持向量机（SVM）初级zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习

2014-09-18 22:33:49 2978

原创 PCA：Principle Component Analysis [3]

wikipedia上关于PCA的解释：http://en.wikipedia.org/wiki/Principal_component_analysis这里写的

2014-05-25 23:06:23 1058

转载机器学习中的范数规则化之（一）L0、L1与L2范数

转自：http://blog.csdn.net/zouxy09/article/details/24971995

2014-05-20 19:51:40 898

转载 PCA：Principle Component Analysis [2]

转自：http://deeplearning.stanford.edu/wiki/index.php/PCAzhongw

2014-05-20 13:26:11 1276

原创 PCA：Principle Component Analysis [1]

来自wikimePrincipal component analysis (PCA) is a statistical procedure that uses orthogonal transformation to convert a set of observations of possibly correlated variables into a set of values o

2014-05-07 23:56:37 1131

转载科學計算 -- Octave 的函數列表

矩陣函式庫函數英文說明使用範例'transpose轉置A'+add矩陣相加A+B-minus矩陣相減A-B*multiply矩陣相乘A*B\divide矩陣相除，計算 AX = b 中的 XA\brref()Reduce

2014-05-06 12:37:27 2422

原创一张图解释EM算法

文章：http://www.nature.com/nbt/journal/v26/n8/full/nbt1406.html图：

2014-04-23 17:17:34 1404

转载牛顿法与共轭梯度法

转载出处：http://www.codelast.com/ 在最优化的领域中，这“法”那“法”无穷多，而且还“长得像”——名字相似的多，有时让人觉得很迷惑。在自变量为一维的情况下，也就是自变量可以视为一个标量，此时，一个实数就可以代表它了，这个时候，如果要改变自变量的值，则其要么减小，要么增加，也就是“非左即右“，所以，说到“自变量在某个方向上移动”这个概念的时候，它并不是

2014-04-23 11:24:43 1705

转载 Gradient Descent

转载请注明出处：http://www.codelast.com/最速下降法（又称梯度法，或Steepest Descent），是无约束最优化领域中最简单的算法，单独就这种算法来看，属于早就“过时”了的一种算法。但是，它的理念是其他某些算法的组成部分，或者说是在其他某些算法中，也有最速下降法的“影子”。因此，我们还是有必要学习一下的。我很久以前已经写过一篇关于最速下降法的文章了，但是这里

2014-04-23 10:47:42 1011

转载大规模优化算法 - LBFGS算法

http://blog.sina.com.cn/s/blog_eb3aea990101gflj.html

2014-04-22 16:29:58 2377

转载《深入浅出统计学》之GB术语表

英文中文population 总体sampling unit 抽样单元sample 样本observed value 观测值descriptive statistics 描述性统计量random sample 随机样本simple

2014-03-09 16:02:54 2371

原创多变量线性回归的解析解

2014-03-07 01:00:31 2091

原创 Dirichlet Distribution Nomalizing Constant

2014-02-22 02:13:08 1008

原创 Naive Bayes VS Logistic Regression

NB和LR的区别http://www.quora.com/What-is-the-difference-between-logistic-regression-and-Naive-Bayeswww.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf‎作为生成模型NB从样本数据中模拟P(X|Y)和P(Y)，而作为判别模型的LR，直接对数据lable：Y

2014-02-18 15:17:45 5028

原创 Coursera

今天完成了Coursera上的第一门课《机器学习基石》，刚开始以为自己坚持不下来，听两节就撤了，这次终于坚持下来，完成了整个课程和全部作业，纪念之~~~2014/01/18

2014-01-18 06:11:11 1094 1

原创关于bias 和 variance

一篇blog写的不错http://www.ryanzhang.info/archives/1989

2014-01-03 15:04:01 1126

原创感知机算法

感知机算法处理的数据必须是线性可分的，否则无法停下来算法：While (True) { Bool flag = False ForI in N If Yi * (W内积Xi) W= W + YiXi flag = Trueif !fla

2013-12-16 21:48:23 965

原创漫画线性代数

刚才在看高桥的>，一开始觉得很简单，不过还是看到之前学的很多不扎实的地方：关于矩阵的理解，矩阵的逆运算，矩阵的行列式计算方法！尤其是对矩阵的理解，其实只用将一个矩阵考虑成一个空间变换，一个矩阵乘以一个向量，得到另一个全新的向量！而矩阵每一行的值都是旧向量在变为新向量的时候各个维度上的权重。而对于一个矩阵乘以一个矩阵可以看成是一个矩阵对多个原空间向量的变换。最初矩阵来自线性方程组的一种表

2013-07-08 13:27:47 1553

原创 AdaBoost

AdaBoost自适应增强，一直听说这个方法，觉得很高端，大半夜的记一下！自适应增强的思想是用多个弱分类器提升出一个强的分类器：强可学习和弱可学习是等价的！步骤：首先，你有一批数据作为训练集其次，你有一个学习分类模型的方法，而且你这个学习方法应该用到训练集中每个样本的权重，因为自适应增强方法就是通过不断增大上一轮分错样本的权重同时降低分对样本的权重的方法来不

2013-06-30 00:17:57 940

原创最大熵

零星感悟：最大熵知之为知之，不知为不知论文：The Improved Iterative Scaling Algorithm: A Gentle Introduction核心思想：构造经验期望减去模型期望的差，然后让这个差等于零，此时的权重参数即为最优解的参数下面是看李航的>最大熵一章和论文推导时的一个疑惑，幸得别人指点明白了。在最大熵模型中，条件概率分布式这样的：

2013-06-26 16:38:17 958

原创朴素贝叶斯

>：朴素贝叶斯这几个概念一直弄的糊里糊涂的~~~朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法！贝叶斯定理：P(A|B) = P(B|A) * P(A) / P(B)特征条件独立是指对于一个样本点X，表示成特征向量。说明样本空间是n维的，每个样本点有n个特征。下面说怎么用朴素贝叶斯法进行分类：朴素贝叶斯法是生成模型，就是说它是通过给定的样本集合，学习样

2013-06-22 21:08:40 1238

原创线性回归最小二乘梯度下降随机梯度下降

一下午只弄清楚这一个问题了，记录一下，有点乱：先从线性回归问题说起，为了对样本点进行拟合求得拟合函数来进行对新的输入做出预测，便设计了一个衡量拟合函数好坏的标准，其实标准有很多：可以是SUM{|f(Xi) - Yi|} / N; 也可以是SUM{|f(Xi) - Yi|^2} / N；因为对于不同的拟合函数，样本点是相同的，那N就是一样的，所以可以直接比较：1.SUM{|f(Xi) -

2013-06-15 19:09:31 3265

原创快速傅里叶变换(FFT)

快速傅里叶变换大学的时候就学了，可现在想起来都还回去了已经。前两天做到一道大数乘法题：http://www.51nod.com/onlineJudge/questionCode.html#!problemId=1028需要用到傅里叶变换，就又从新拿出算法导论看了一遍，记下来加深一下记忆！！傅里叶变换多用于信号处理，在频率域和时间域之间进行变换，我只知道这么多了！！对于大数乘法，

2013-06-12 22:17:03 1749

原创 SVM中令 WX + b = 1的理解

都知道SVM中的核心就是找到一个超曲面来实现样本点的线性可分，那么对于多个可用的超曲面来说，哪个是最好的呢?Answer：SVM对超曲面选取的标准是：max margin每一个候选的超曲面对应都有一个margin，我们选的就是让这margin最大的超曲面！而这里定义的一个超曲面的margin指的是所有的样本点到该超曲面的几何距离的最小值。需要注意的是，对于任意一个超曲面，都

2013-05-27 17:20:21 4484

原创关于点到直线距离的理解

一、先以2维空间为例：对于一条直线，我们一般表示成：y = kx + b或者表示成：ax + by + c = 0这里的第二种表示其实还可以转换成这样：(a, b)(x, y) + c = 0即表示成两个向量的乘积的形式，而这里的(a, b)正是直线的法向量，而 k 的值就等于 -a / b那么为什么：(a, b)(x, y) + c = 0 可以表示二维空间的一条唯一直线呢？

2013-05-27 16:38:53 3550 1

原创关于Catalan(卡特兰)数的理解

卡特兰数的起源Catalan数源自Euler对凸多边形通过不相交的对角线切分成三角形的不同切分方案数。n+1个顶点（A1,A2...An+1）的凸多边形，取定多边形的一条边,不妨设为A1An+1,任意取凸多边形的一个顶点Ak+1(k=1,2...n-1)，可以将凸多边形分为T1,R,T2三部分，如图T1部分是由k+1个顶点组成的凸多边形，T2部分是由n+1-k个顶点组成的凸

2012-09-16 17:16:47 4168

muye5的专栏