数据挖掘十大经典算法
tuenchuleung
the more smile you have the more happy you will get。
展开
-
数据挖掘十大经典算法之一:K近邻
基本原理k近邻(k-Nearest Neighbor,KNN)是一种有监督学习方法,其工作机制很简单:在给定测试样本时,基于某种距离(欧氏距离)度量找出训练样本数据集中与其距离最近的K个样本,然后基于这个k个样本做预测,通常采用的是“投票法”,也就是说属于哪个类别的样本数多,就预测为该样本。 常用的距离计算公式 Lp距离定义: 欧氏距离:当p=2时,就是我们常见的欧式距离 曼哈顿距离:当p=1时称之原创 2016-07-27 08:24:32 · 692 阅读 · 0 评论 -
回归
回归的概念回归就是根据输入的数据写出一个目标值的公式,这个公式可以较好对输入的数据进行拟合,这个公式叫做回归方程,而公式中的涉及到的系数成为回归系数,求解这些系数的过程称为回归。简单来讲就是通过曲线对数据进行拟合。Exampley = a*x1 + b*x2 + c*x3 + d 始终公式就是一个回归方程,其中a,b,c,d为回归系数,根据输入的数据x1,x2,x3 求解上述回归系数。 求解过程原创 2016-07-28 16:49:36 · 338 阅读 · 0 评论 -
数据挖掘十大经典算法之二:K-means
概念和原理k-means是无监督聚类算法,主要是根据样本的相似度或者样本之间的距离进行自动分类。 首先,初始化聚类中心,可以随机选择K个样本,也可以固定选择其中的k个样本作为初始化的聚类中心。 其次,计算各样本到所有的聚类中心的相似度(此处用距离表示),将样本分到与聚类中心相似的最大即距离最小的中心所在的类中。 再次,更新聚类中心,可以通过样本的平均值计算 最后,循环迭代,直至满足停止条件。原创 2016-07-31 14:41:26 · 435 阅读 · 0 评论