Data Mining
_洋_
这个作者很懒,什么都没留下…
展开
-
机器学习(二)——K均值聚类算法(K-means)
概述:1.聚类“类”指的是具有相似性的集合。聚类是指将数据集划分为若干类,使得类内之间的数据最为相识,各类之间的数据相似度差别尽可能大。聚类分析就是以相似性为基础,对数据集进行聚类分析,属于无监督学习。2.无监督学习和监督学习k-均值聚类(k-means)与k-近邻(knn)算法之间没有任何关系。监督学习知道从对象(数据)中学习什么,而无监督学习无需知道所要搜寻的目标,它是根据...原创 2018-12-07 20:06:37 · 1227 阅读 · 0 评论 -
机器学习(一)——降维 PCA(主成分分析)的理解
对数据进行简化的原因:1.降维可以缓解维度灾难问题2.降维可以降低很多算法的计算开销3.降维可以使得结果易懂4.理解几百个维度的数据结构很困难,两三个维度的数据通过可视化更容易理解PCA简介: 在特征提取与处理时,涉及高维特征向量的问题往往容易陷入维度灾难。随着数据集维度的增加,算法学习需要的样本数量呈现指数级增加。有些应用中,遇到这样的大数据时非常不利的,...原创 2018-12-06 10:09:17 · 2928 阅读 · 0 评论 -
机器学习(三)——Apriori算法进行关联分析
一. 关联分析关联分析是一种在大规模数据集上寻找有趣关系的任务。这些关系可以有两种形式:频繁项集与关联规则。频繁项集是经常出现在一块的物品的集合;关联规则暗示两种物品之间可能存在很强的关系。如何量化的评价频繁项集和关联规则呢?由此引出了支持度(support)和置信度(confidence)。 1....原创 2018-12-11 16:38:18 · 1716 阅读 · 0 评论 -
机器学习(四)——Adaboost算法
一,Boosting算法概论boosting是一族可将弱学习器提升为强学习器的算法。booting中所使用的多个分类器的类型都是一致的,并且不同分类器是通过串行训练而获得的,每个新分类器都根据已训练出的分类器的性能进行训练。Boosting是通过集中关注被已有分类器错分的那些数据来获得新的分类器。boosting分类的结果是基于所有分类器的加权求和结果的,因此boosting中的分类器权重并不...原创 2018-12-22 21:00:20 · 2179 阅读 · 0 评论 -
机器学习(五)——GBDT算法
1.GBDT概述GBDT也是集成学习Boosting家族的成员,GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型。在GBDT的迭代中,假设我们前一轮迭代得到的强学习器是 f t-1(x),损失函数是L(y,ft-1(x)),我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x),让本轮的损失函数L(y,ft(x))=L(y,ft-1(x)+ht(x...转载 2018-12-24 21:18:11 · 631 阅读 · 0 评论