ML&PR&DM
文章平均质量分 89
_北方的雪_
这个作者很懒,什么都没留下…
展开
-
相似度属性之距离
欧氏距离: 欧几里得度量定义欧几里得空间中,点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为向量 的自然长度,即该点到原点的距离为.它是一个纯数值。在欧几里得度量下,两点之间直线最短。马氏距离马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协翻译 2013-04-02 15:34:39 · 2467 阅读 · 0 评论 -
SVM学习三
7 核函数(Kernels)考虑我们最初在“线性回归”中提出的问题,特征是房子的面积x,这里的x是实数,结果y是房子的价格。假设我们从样本点的分布中看到x和y符合3次曲线,那么我们希望使用x的三次多项式来逼近这些样本点。那么首先需要将特征x扩展到三维,然后寻找特征和结果之间的模型。我们将这种特征变换称作特征映射(feature mapping)。映射函数称作,在这个例子中转载 2013-03-31 11:47:58 · 908 阅读 · 0 评论 -
SVM学习一
1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结构风险最小原理出发,然后引出SVM什么的,还有些资料上来就讲分类超平面什么的。这份材料从前几节讲的lo转载 2013-03-31 11:51:14 · 822 阅读 · 0 评论 -
SVM学习二
6 拉格朗日对偶(Lagrange duality) 先抛开上面的二次规划问题,先来看看存在等式约束的极值问题求法,比如下面的最优化问题: 目标函数是f(w),下面是等式约束。通常解法是引入拉格朗日算子,这里使用来表示算子,得到拉格朗日公式为 L是等式约束的个数。 然后分别对w和求偏导,使得偏转载 2013-03-31 11:50:14 · 1014 阅读 · 0 评论 -
SVM学习(五)
11 SMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for转载 2013-03-31 11:42:51 · 805 阅读 · 0 评论 -
SVM学习四
9 规则化和不可分情况处理(Regularization and the non-separable case)我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使用核函数来将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能100%保证可分。那怎么办呢,我们需要将模型进行调整,以保证在不可分的情况下,也能够尽可能地找出分隔超平面。看下面两张转载 2013-03-31 11:46:46 · 760 阅读 · 0 评论 -
PCA原理分析
在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。一:PCA基本思想及数学模型(一)主成分分析的基本思想主成原创 2014-02-22 20:39:00 · 1883 阅读 · 0 评论 -
基于GMM算法的EM算法
高斯混合模型本文就高斯混合模型(GMM,Gaussian Mixture Model)参数如何确立这个问题,详细讲解期望最大化(EM,Expectation Maximization)算法的实施过程。单高斯分布模型GSM多维变量X服从高斯分布时,它的概率密度函数PDF为:x是维度为d的列向量,u是模型期望,Σ是模型方差。在实际应用中u通常用样本均值来代替,Σ通常用样本方转载 2014-02-22 11:35:57 · 2603 阅读 · 0 评论 -
机器学习十大经典算法
一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有:1、用信息增益率来选择属性。ID3选择属性用的是子树转载 2014-02-13 19:15:28 · 785 阅读 · 0 评论 -
隐马尔可夫模型HMM
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的转载 2014-02-24 15:06:23 · 974 阅读 · 0 评论 -
决策树CART
分类回归树(CART,Classification And Regression Tree)也属于一种决策树,上回文我们介绍了基于ID3算法的决策树。作为上篇,这里只介绍CART是怎样用于分类的。分类回归树是一棵二叉树,且每个非叶子节点都有两个孩子,所以对于第一棵子树其叶子节点数比非叶子节点数多1。表1名称体温表面覆盖胎生产蛋转载 2014-02-13 19:28:33 · 2340 阅读 · 0 评论 -
ID3
ID3算法是J. Ross Quinlan在1975提出的分类预测算法,当时还没有数据挖掘吧,哈哈哈。该算法的核心是“信息熵”,属于数学问题,我也是从这里起发现数据挖掘最底层最根本的不再是编程了,而是数学,编程只是一种实现方式而已,数学才是基础,如:朴素贝叶斯分类,小波聚类,尤其是我正在搞的支持向量机,它就是高等代数,空间解析几何,概率统计的综合应用。记得读本科时,朱琛学姐说过,数学学得再好也不为转载 2014-02-13 19:14:07 · 991 阅读 · 0 评论 -
常见期刊
http://wenku.baidu.com/view/fe46a206e87101f69e319501.htmlhttp://wenku.baidu.com/view/08c287f67c1cfad6195fa72f原创 2013-07-24 16:33:30 · 692 阅读 · 0 评论 -
《模式识别》之文法模式识别
原创 2013-06-26 23:40:13 · 1171 阅读 · 0 评论 -
机器学习(二)之Logistic Regression
由于线性回归对训练样本的抗干扰能力差,于是就提出了逻辑回归。,笔记如下。原创 2013-05-09 22:22:55 · 1043 阅读 · 0 评论 -
机器学习(一)之Linear Regression
Andrew Ng对这部分的讲解循序渐进,令人称道。这一部分的笔记如下:几个疑问:1 目标函数为什么要加1/(2m)?2 梯度下降法中为什么要simultaneous update,另外一种的update方式不行吗,为什么?3 Normal Equation的方法有什么理论基础?4 梯度下降法,标准方程及最小二乘法三者在实现时那种效果会好些,为什么?原创 2013-05-06 10:32:32 · 1362 阅读 · 2 评论 -
机器学习(三)之Matlab实现的函数总结
在学习了线性回归与逻辑回归后,对其进行Matlab实现并总结如下:(一) 运用Matlab内函数进行回归%linear regression with matlab inner functionx=[1;2;3;4;5;6;7];y=[2.1;5;5.8;8.2;10.5;11;15];temp=ones(7,1);X=[temp x];b=regress(y,X)z=b(原创 2013-05-09 22:12:33 · 4998 阅读 · 0 评论 -
SVM中对偶、凸优化与KTT条件问题
对偶问题:http://blog.csdn.net/wuwuwuwuwuwuwuwu/article/details/8252056最优化与KTT条件:http://blog.csdn.net/wuwuwuwuwuwuwuwu/article/details/8251965凸优化问题:http://blog.csdn.net/highkit/article/details/7475155原创 2013-05-31 19:59:28 · 4415 阅读 · 0 评论 -
《数据挖掘》总结2
原创 2013-06-26 20:44:25 · 812 阅读 · 0 评论 -
《模式识别》之数理统计
原创 2013-06-26 23:30:33 · 1122 阅读 · 0 评论 -
《数据挖掘》总结1
原创 2013-06-26 20:36:55 · 759 阅读 · 0 评论 -
《模式识别》之似然函数进行模式识别
原创 2013-06-26 23:33:31 · 958 阅读 · 0 评论 -
《模式识别》之完整总结
原创 2013-06-26 11:02:54 · 1380 阅读 · 0 评论 -
《模式识别》之用距离进行识别
原创 2013-06-26 23:36:06 · 1021 阅读 · 0 评论 -
《模式识别》之数据降维
原创 2013-06-26 23:38:15 · 1411 阅读 · 0 评论 -
常见模式识别算法
机器学习10大经典算法1、C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2)在树构造过程中进行剪枝; 3)能够完成对连续属性的离散化处理;转载 2014-09-26 18:51:21 · 8259 阅读 · 1 评论