![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
稷殿下
这个作者很懒,什么都没留下…
展开
-
【数据挖掘笔记】聚类评估
原文地址:【阅读原文】在之前的文章中已经介绍了四大类聚类方法及其典型的算法实现,那么,现在我们所需要做的就是聚类评估。聚类评估的主要任务包括:估计聚类趋势:简言之就是数据集上存在非随机结构,通俗地讲就是数据集不能是随机的,否则聚类则无意义。确定数据集中的簇数:这个好理解就是估计聚类数目K了,大多数聚类方法都需要提前制定簇数目K。测定聚类质量:对聚类结果进行评价。一、估计...原创 2020-04-27 11:29:01 · 1675 阅读 · 0 评论 -
【模型评估】通俗演义如何进行交叉检验
交叉验证(Cross validation,简称CV)是一种分类技术,别称旋转估计(Rotation estimation)或样本外测试(Out-of-sample testing)。假设我们已经建立了一个分类器,我们希望评估这个分类器的准确率,那么如何科学地评估分类器的准确率呢?在实验中,我们通常会采用k-折交叉验证技术来评估分类器的正确率。k-折交叉检验一般地,对于分类问题,我们需要两个数...原创 2020-04-26 16:09:40 · 406 阅读 · 0 评论 -
【数据挖掘】聚类分析实例
在之前,我们已经学过了四大类聚类分析及其典型算法。本文,我们将使用划分方法中的k-均值算法和层次聚类方法以一个实例进行完整的聚类分析演示。1. 问题描述例题: 为研究我国31个省、市、自治区2007年的城镇居民生活消费的规律,根据调查资料作区域消费类型划分。原始数据表1所示:问题:针对上述问题,采用k-means对其进行聚类(讨论k取何值才是最优);2. 采用层次聚类(讨论采用欧式距...原创 2020-04-26 12:36:24 · 16404 阅读 · 3 评论 -
【算法推荐】层次聚类算法BIRCH及其实现
利用层次结构的平衡迭代归约和聚类(Balanced Iterative Reducing and Clustering usingHierarchies, BIRCH)是为大量数值数据聚类设计的,它将层次聚类(在初始微聚类阶段)与诸如迭代地划分这样的其他聚类算法(在其后的宏聚类阶段)集成在一起。它克服了凝聚聚类方法所面临的两个困难: (1)可伸缩性; (2)不能撤销先前步骤所做的工作。...原创 2020-04-17 15:17:39 · 3316 阅读 · 1 评论 -
【数据挖掘笔记】K-均值算法及其拓展
基于划分的聚类方法主要包括K-均值和K-中心点方法,本文为大家总结了K-均值算法及其拓展,连同程序一并献上。一、K-均值算法算法如下:例如:给定数据集合D,任取K = 2个对象作为初始聚类中心。计算各个对象到K个中心点的距离(如欧式距离),并将每个对象赋给最近的中心点。然后,更新簇的平均值, 即重新计算每个簇中对象的平均值作为簇的中心点。由于簇的中...原创 2020-04-08 11:02:00 · 915 阅读 · 0 评论 -
【数据挖掘笔记】度量数据的相似性和相异性
相信很多同学正在完成毕业论文(设计)或是准备投稿,今天就为大家推荐科研论文经常用到的数据处理内容——度量数据的相似性和相异性内容。能够用上这些内容,相信一定能为自己的论文增光添彩的!!!本文给出相似性和相异性度量。相似性和相异性都称邻近性(proximity)。相似性和相异性是有关联的。典型地,如果两个对象i和j不相似,则它们的相似性度量将返回0。相·似性值越高,对象之间...原创 2020-04-03 17:18:54 · 4279 阅读 · 0 评论