层次聚类(学习笔记

使用Python scipy库提供的3种层次聚类算法的结果:

(1)单链接(MIN):

        也称为最小距离法(minimum-distance method)或最小连结法(minimum-linkage method)。

        在单链接方法中,两个群集之间的距离定义为一个群集中的最近成员与另一个群集中的最近成员之间的距离。

具体步骤如下:

  1. 计算每对数据点之间的距离。
  2. 将每个数据点作为一个单独的群集。
  3. 找到距离最近的两个群集,将它们合并为一个新的群集。
  4. 重复步骤3,直到所有数据点都属于一个群集。

单链接方法的特点是它倾向于形成长条状的聚类。由于它依赖于最小距离,容易受到异常值的影响,并且可能产生“链式效应”,即将不相似的群集连接在一起。

(2)全链接(MAX):

        也称为最大距离法(maximum-distance method)或最大连结法(maximum-linkage method)。

在全链接方法中,两个群集之间的距离定义为一个群集中的最远成员与另一个群集中的最远成员之间的距离。

具体步骤如下:

  1. 计算每对数据点之间的距离。
  2. 将每个数据点作为一个单独的群集。
  3. 找到距离最远的两个群集,将它们合并为一个新的群集。
  4. 重复步骤3,直到所有数据点都属于一个群集。

        全链接方法的特点是它倾向于形成球状的聚类。由于它依赖于最大距离,对异常值不敏感,但也容易受到高密度区域的影响,可能会形成不平衡的群集。

(3)组平均值(group average):

        也称为平均链接(average linkage)方法。

        在这种方法中,两个群集之间的距离被定义为一个群集中的每个点与另一个群集中的每个点之间的平均距离

具体步骤如下:

  1. 计算每对数据点之间的距离。
  2. 将每个数据点作为一个单独的群集。
  3. 找到两个群集,其所有点之间的平均距离最小,将它们合并为一个新的群集。
  4. 重复步骤3,直到所有数据点都属于一个群集。

        组平均值方法的特点是对异常值相对不敏感,且在处理噪声较大的数据时效果较好。它倾向于形成均衡的群集,对于较大的数据集也相对高效。

该库还提供了一些其他分层聚类算法,包括基于质心(centroid-based)和Ward方法。

(4)基于质心

(5)Ward方法

        Ward方法是一种层次聚类算法中使用的一种合并策略,它旨在最小化合并后的群集的方差增加量。在层次聚类中,通过将最相似的群集合并来构建一棵树状结构,最终形成一个完整的聚类结果。

        Ward方法的原理是在每次迭代时选择两个群集合并,以最小化合并后总方差的增加。它评估合并两个群集之后,新群集的方差与合并前两个群集各自的方差总和之差。该方法更倾向于合并方差增长最小的群集,因此它可以产生更平衡、更紧密的聚类。

        在层次聚类中,Ward方法常用于scipy.cluster.hierarchy中的linkage函数,其中合并策略参数设置为'ward'。该方法在某些情况下能够产生更均衡和更紧凑的聚类结果,尤其适用于聚类数量较少、群集大小差异较大或群集之间差异较大的情况。

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据挖掘电影聚类分析是一种常用的建模方法,它可以帮助我们对大量电影数据进行分类和分析。下面是一些具体步骤: 1. 数据收集:首先需要采集大量电影相关的数据,包括电影名称、导演、演员、类型、上映时间、票房等信息。可以从电影网站、电影评分网站等渠道收集数据。 2. 数据清洗:对采集到的数据进行清洗,去掉重复数据、缺失值等,确保数据的完整性和准确性。 3. 特征提取:从清洗后的数据中提取关键特征,比如电影的类型、导演、演员等信息,作为后续聚类分析的输入变量。 4. 数据预处理:对提取出的特征数据进行预处理,比如标准化、归一化等,以便后续聚类算法的使用。 5. 聚类算法选择:选择合适的聚类算法,比如K-Means、层次聚类等,根据实际情况确定聚类的数量。 6. 聚类分析:应用聚类算法对预处理后的数据进行分析,将相似的电影分为同一类别,得到不同类别的电影列表。 7. 模型评估:对聚类结果进行评估,比如计算不同类别内部的相似度和不同类别之间的差异性,以确定聚类效果的好坏。 8. 结果应用:根据聚类结果,可以给用户提供更好的电影推荐服务,或者对电影市场进行分析和预测。 总之,数据挖掘电影聚类分析是一种有力的建模方法,可以帮助我们更好地理解电影市场,提高电影推荐服务的准确性和用户体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值