Algorithm
ML_NI_CSU
这个作者很懒,什么都没留下…
展开
-
图论:最短路径搜索--Dijkstra算法(c代码实现)
一:简介 这个算法用于解决图中单源最短路径问题。所谓单源节点是指给定源节点,求图中其它节点到此源节点的最短路径。如下图所示:给定源节点a,求节点b到a的最短距离。(图来自于参考资料2)那么如何寻找?还是以上图为例:1)初始化:设定除源节点以外的其它所有节点到源节点的距离为INFINITE(一个很大的数),且这些节点都没被处理过。2)从源节点出发,更转载 2013-11-03 22:34:20 · 2253 阅读 · 0 评论 -
压缩感知应用FAQ
前面有几篇很有意思的文章分别介绍了压缩感知原理以及如何运用矩阵的稀疏性进行相关分析,这一篇文章中呢,我不提压缩感知原理,如果想看原理的朋友请看下面几篇文章:初识压缩感知Compressive Sensing中国压缩传感资源(China Compressive Sensing Resources)压缩感知进阶——有关稀疏矩阵“压缩感知” 之 “Hello World”那么我这里讲转载 2015-01-26 16:18:06 · 871 阅读 · 0 评论 -
正定矩阵(用于SVM的Mercer定理)
定义:一个n × n的实对称矩阵M 是正定的当且仅当对于所有的非零实系数向量z,都有zTMz > 0。正定矩阵判定:1. 矩阵M的所有的特征值 λi都是正的。根据谱定理,M必然与一个实对角矩阵D相似(也就是说M = P − 1DP,其中P是幺正矩阵,或者说M在某个正交基可以表示为一个实对角矩阵)。因此,M是正定阵当且仅当相应的D的对角线上元素都是正数。2. 半双线性转载 2014-11-27 10:49:31 · 4464 阅读 · 0 评论 -
一切为了SVM
SVM原理 入门(1-10):(1-3)简介+线性分类器 http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html (4) 线性分类器的求解 http://www.blogjava.net/zhenandaci/archive/2009/02/13/254578.html (转载 2014-10-09 11:31:34 · 1571 阅读 · 0 评论 -
Pearson(皮尔逊)相关系数[ Pearson product-moment correlation coefficient; PPMCC或PCCs]
欧几里德距离欧几里得度量定义欧几里得空间中点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为但是当评价结果中,评价者的评价相对于平均水平偏离很大的时候欧几里德距离不能很好的揭示出真实的相似度.还有一种评价方法就是使用皮尔逊相关系数,它可以完成"夸大值纠偏":相关系数:考察两个事物(在数据里我们称之为变量)之间转载 2014-10-08 09:17:32 · 8018 阅读 · 0 评论 -
特征选择之一:卡方选择
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在转载 2014-10-24 09:55:44 · 1435 阅读 · 0 评论 -
特征选择之二:信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带转载 2014-10-24 10:00:04 · 949 阅读 · 0 评论 -
机器学习中的范数规则化 (L0、L1、L2和核范数)
监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。多么简约的哲学啊!因为参数太多,会导致我们的模型复杂度上升,容易过拟合,也就是我们的训练误差会很小。但训练误差小并不是我们的最终转载 2014-08-24 22:22:23 · 14550 阅读 · 4 评论 -
又一次见证了HTML5的强大
以下是旧金山大学的David Galles教授用HTML5+js制作的数据结构动画课件中算法动画比较部分。教授利用JS+HTML5 Canvas技术分别演示了6中数学排序算法的基本原理,即介绍了数学知识,又让这种教学变得饶有兴趣。你可以看出HTML5技术将会在各个方法起到越来越重要的作用。原创 2014-07-10 09:36:00 · 741 阅读 · 0 评论 -
机器学习常见算法分类汇总
机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里 IT 经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。 机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。 学习方式转载 2014-07-10 09:41:38 · 948 阅读 · 0 评论 -
Waffles——机器学习开发包
Waffles是一款跨平台的、基于命令行的机器学习开发包,包含了现有的主要机器学习算法,完全开源,用C++编写,使用方便。该工具包的强大之处非常多,很重要的一个方面就是其在非监督学习方面的包罗万象,特别是降维算法,实现了PCA、isomap、LLE、manifold sculpting、breadth-first unfolding、neuro-PCA、cycle-cut、unsuperv转载 2014-01-06 16:32:50 · 1041 阅读 · 0 评论 -
Introduction to Blind Source Separation
Recently, blind source separation by Independent Component Analysis (ICA) has received attention because of its potential applications in signal processing such as in speech recognition systems, telec转载 2014-01-04 10:37:37 · 1538 阅读 · 0 评论 -
[小木虫]推荐几个机器学习算法及应用领域相关的中国大牛
李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习。近年来,主要与人合作使用机器学习方法对信息检索中排序,相关性等问题的研究。曾在人大听过一场他的讲座,对实际应用的问题抽象,转化和解决能力值得学习。转载 2013-12-12 15:00:33 · 7467 阅读 · 0 评论 -
Boosting算法简介
一、Boosting算法的发展历史 Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合为一个分类器的方法,即boostrapping方法和bagging方法。我们先简要介绍一下bootstrapping方法和bagging方法。 1)bootstrapping方法的主要过程 主要步骤:转载 2015-09-18 15:16:30 · 2316 阅读 · 0 评论