machine learning
brilliantyoho
这个作者很懒,什么都没留下…
展开
-
机器学习问题方法总结
大类 名称 关键词 有监督分类 决策树 信息增益 分类回归树 Gini指数,Χ2统计量,剪枝 朴素贝叶斯 非参数估计,贝叶斯估计 线性判别分析 Fishre判别,特征向量求解 K最邻近 相似度度量:欧氏距离、街区距离、编辑距离、向转载 2015-01-27 15:54:39 · 527 阅读 · 0 评论 -
PCA算法及其数学原理
From: http://blog.codinglabs.org/articles/pca-tutorial.html转载 2015-01-09 10:38:07 · 600 阅读 · 0 评论 -
KMeans聚类 K值以及初始类簇中心点的选取
本文主要基于Anand Rajaraman和Jeffrey David Ullman合著,王斌翻译的《大数据-互联网大规模数据挖掘与分布式处理》一书。 KMeans算法是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭转载 2014-12-03 10:33:55 · 4173 阅读 · 1 评论 -
支持向量机(SVM)基础
关于SVM的论文、书籍都非常的多,引用强哥的话“SVM是让应用数学家真正得到应用的一种算法”。SVM对于大部分的普通人来说,要完全理解其中的数学是非常困难的,所以要让这些普通人理解,得要把里面的数学知识用简单的语言去讲解才行。而且想明白了这些数学,对学习其他的内容也是大有裨益的。我就是属于绝大多数的普通人,为了看明白SVM,看了不少的资料,这里把我的心得分享分享。 其实现在能够找到的转载 2014-12-03 17:23:51 · 394 阅读 · 0 评论 -
最流行的4个机器学习数据集
机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。 Iris Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolo转载 2014-12-03 09:31:43 · 1130 阅读 · 0 评论 -
Canopy聚类思想
一、基本思想 1、基于Canopy Method的聚类算法将聚类过程分为两个阶段 Stage1、聚类最耗费计算的地方是计算对象相似性的时候,Canopy Method在第一阶段选择简单、计算代价较低的方法计算对象相似性,将相似的对象放在一个子集中,这个子集被叫做Canopy ,通过一系列计算得到若干Canopy,Canopy之间可以是重叠的,但不会存在某个对象不属转载 2014-12-03 10:37:15 · 669 阅读 · 0 评论 -
关于mapreduce
关于mapreduce mapreduce很适合数据之间相关性较低且数据量庞大的情况,map操作将原始数据经过特定操作打散后输出,作为中间结果,hadoop通过shuffle操作对中间结果排序,之后,reduce操作接收中间结果并进行汇总操作,最后将结果输出到文件中,从这里也可以看到在hadoop中,hdfs是mapreduce的基石。可以用下面这幅图描述map和reduce的过转载 2014-12-03 10:39:43 · 345 阅读 · 0 评论 -
K-Means 算法
最近在学习一些数据挖掘的算法,看到了这个算法,也许这个算法对你来说很简单,但对我来说,我是一个初学者,我在网上翻看了很多资料,发现中文社区没有把这个问题讲得很全面很清楚的文章,所以,把我的学习笔记记录下来,分享给大家。 在数据挖掘中, k-Means 算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 问题转载 2014-12-03 16:45:10 · 373 阅读 · 0 评论 -
PCA算法及其数学原理
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。 当然我并不打算把文章写成纯数转载 2015-01-09 10:07:18 · 265 阅读 · 0 评论 -
EM算法实例
本文试图用最简单的例子、最浅显的方式说明EM(Expectation Maximization)算法的应用场景和使用方法,而略去公式的推导和收敛性的证明。 以下内容翻译自《Data-Intensive Text Processing with MapReduce》。 Maximum Likelihood Estimation Maximum Likelihood Estimation(MLE转载 2015-01-27 16:14:41 · 1441 阅读 · 0 评论 -
EM算法原理
机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引了那么多世人的目光。 我希望自己能通俗地把它理解或者说明白,但是,EM这个问题感觉真的不太好用通俗的语言去说明白,转载 2015-01-27 16:22:00 · 557 阅读 · 0 评论 -
数据挖掘开发工具
commercial: | free and open-source AC2 (from Isoft), a set of librairies for building data mining solutions on the server side. Analytics1305 Machine Learning Library, with over 15 feature-ric转载 2014-12-26 16:32:23 · 437 阅读 · 0 评论