【数据挖掘实验】聚类分析方法

最新推荐文章于 2024-01-23 14:13:33 发布

想飞的蓝笨笨

最新推荐文章于 2024-01-23 14:13:33 发布

阅读量5.5k

点赞数 3

分类专栏： Clemetine

本文链接：https://blog.csdn.net/qq_44762986/article/details/113269207

版权

该实验介绍了聚类分析在数据挖掘中的应用，包括谱系聚类、快速聚类和两步聚类。通过实例展示了如何使用Clementine软件进行聚类分析，如分析《红楼梦》作者问题和中国男足在亚洲的地位。实验结果表明，聚类分析能有效识别数据中的模式和群体差异。

摘要由CSDN通过智能技术生成

一、实验项目名称：

聚类分析方法

二、实验目的与要求：

在软件方面：会用Clementine软件进行聚类分析。
在理论方面：聚类分析及其常用的聚类分析方法，数据挖掘中的聚类分析。

三、实验原理：

1、聚类分析方法
聚类分析是数据分析中的一种重要技术，它的应用极为广泛。许多领域中都会涉及聚类分析方法的应用与研究工作。例如：在科学数据探测、信息检索、文本挖掘、空间数据库分析、Web数据分析、客户关系管理、医学诊断、生物学等方面的数据挖掘应用软件中，聚类分析技术都起着重要作用。在商业领域，聚类可以帮助市场分析人员从消费者数据库中分出不同的消费群体来，并且概括出每一类消费者的消费模式或者说习惯，发现不同类型的客户群，可以用来分类具有相似功能的基因，了解种群的内在结构。聚类还可以用来从地理数据库中识别出具有相似土地用途的区域；可以从保险公司的数据库中发现汽车保险中具有较高索赔概率的群体；还可以从一个城市的房地产信息数据库中，根据户型、房价及地理位置将房地产分成不同的类；还可以用来对Web上不同类型的文档进行分类等。
我们主要讲的方法是谱系聚类、快速聚类、两步聚类。
2、聚类分析方法应用
聚类分析在《红楼梦》作者问题上的应用
众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,一般都认为前80回为曹雪芹所写,后40回为高鹗所续。然而长期以来这种看法一直都饱受争议。能否从统计上做出论证从1985年开始,复旦大学的李贤平教授带领他的学生作了这项很有意义的工作,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用数理统计分析方法,看看哪些回目出自同一人的手笔。一般认为,每个人使用某些词的习惯是特有的。于是李教授用每个回目