无监督学习：探索数据中的隐藏结构

斯陀含

已于 2024-06-20 22:31:24 修改

阅读量1.1k

点赞数 12

文章标签：人工智能聚类机器学习

于 2024-06-20 22:27:19 首次发布

本文链接：https://blog.csdn.net/u011464172/article/details/139844087

版权

无监督学习：探索数据中的隐藏结构

无监督学习是机器学习中的一种重要分支，它旨在从无标签数据中发现隐藏的模式、结构和关系。与监督学习不同，无监督学习不需要事先标记好的数据，而是通过算法自动学习数据的内在规律。

本文将深入探讨无监督学习中常见的几种方法，包括聚类、降维和关联规则挖掘，并辅以具体的案例和代码示例，帮助您更好地理解和应用这些技术。

一、聚类分析

聚类分析是一种将数据点划分为多个组或簇的过程，每个簇中的数据点彼此相似，而不同簇的数据点则差异较大。

1.1 K-Means 聚类算法

K-Means 算法是最常用的聚类算法之一，它通过迭代地将数据点分配到最近的簇中心来进行聚类。

算法步骤:

**初始化：**随机选择 k 个数据点作为簇中心。
**分配：**将每个数据点分配到距离其最近的簇中心所在的簇。
**更新：**重新计算每个簇的中心点，将其设置为该簇中所有数据点的平均值。
重复步骤 2 和 3，直到簇中心不再改变或达到最大迭代次数。

代码示例 (Python):

from sklearn.cluster import KMeans
import numpy as np

# 生成模拟数据
X = np.array([[1, 2], [1.5, 1.8], [5, 8], [8, 8], [1, 0.6], [9, 11]])

# 创建 KMeans 模型，指定聚类数量为 2
kmeans = KMeans(n_clusters=2, random_state=0)

# 训练模型
kmeans.fit(X)

# 获取聚类标签
labels = kmeans.labels_

# 打印聚类结果
print(f"聚类标签：{labels}")
print(f"簇中心：{kmeans.cluster_centers_}")

案例：

假设我们有一组客户数据，包括年龄、收入、购买频率等信息。我们可以使用 K-Means 算法将客户聚类成不同的群体，例如高消费群体、低消费群体等，以便更好地理解客户行为和制定营销策略。

1.2 其他聚类算法

除了 K-Means 算法，还有许多其他的聚类算法，例如：

**层次聚类：**通过构建树状结构将数据点进行层次化的分组。
**密度聚类：**根据数据点的密度来进行聚类，适用于非球形形状的簇。
**DBSCAN 算法：**一种基于密度的聚类算法，能够识别任意形状的簇。

1.3 聚类评估

如何评估聚类算法的效果？常用的评估指标包括：

**轮廓系数：**衡量一个数据点与其所在簇的相似度，以及与其他簇的差异度。
**Calinski-Harabasz 指数：**衡量簇间差异与簇内差异之比。
**Davies-Bouldin 指数：**衡量簇间距离与簇内距离之比。

二、降维

降维是指将高维数据压缩到更低维度的空间，同时尽可能保留原始数据的主要信息。

2.1 主成分分析 (PCA)

主成分分析 (PCA) 是最常用的降维算法之一，它通过寻找数据集中方差最大的方向，即主成分，来实现降维。

算法步骤：

**数据预处理：**对数据进行标准化或中心化处理。
**计算协方差矩阵：**计算原始数据的协方差矩阵。
**特征值分解：**对协方差矩阵进行特征值分解，得到特征值和特征向量。
**选择主成分：**选择前 k 个最大特征值对应的特征向量作为主成分。
**投影：**将原始数据投影到主成分空间，得到降维后的数据。

代码示例 (Python):

from sklearn.decomposition import PCA
import numpy as np

# 生成模拟数据
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])

# 创建 PCA 模型，指定降维后的维度为 2
pca = PCA(n_components=2)

# 训练模型
pca.fit(X)

# 获取降维后的数据
X_reduced = pca.transform(X)

# 打印降维后的数据
print(f"降维后的数据：{X_reduced}")

案例：

假设我们有一组图像数据，每个图像包含 1000 个像素点，这将导致非常高维的数据。我们可以使用 PCA 将数据降维到更低维的空间，例如 50 维，从而减少存储和计算成本，同时保留图像的主要特征。

2.2 其他降维算法

除了 PCA，还有许多其他的降维算法，例如：

**线性判别分析 (LDA)：**一种有监督的降维算法，旨在找到能够最大化类间差异和最小化类内差异的投影方向。
**t-SNE：**一种非线性降维算法，擅长将高维数据可视化到二维或三维空间。

2.3 降维评估

如何评估降维算法的效果？常用的评估指标包括：

**重构误差：**衡量降维后的数据与原始数据之间的差异。
**保留信息量：**衡量降维后的数据保留了多少原始数据的信息。

三、关联规则挖掘

关联规则挖掘旨在从大型数据集（如购物篮数据）中发现隐藏的关联关系，例如“购买了面包的人也经常购买牛奶”。

3.1 Apriori 算法

Apriori 算法是最常用的关联规则挖掘算法之一，它通过频繁项集的生成和规则生成两个步骤来发现关联规则。

算法步骤：

**生成频繁项集：**寻找所有满足最小支持度阈值的项集，称为频繁项集。
**生成关联规则：**从频繁项集中生成置信度大于最小置信度阈值的关联规则。

代码示例 (Python):

from mlxtend.frequent_patterns import apriori, association_rules
import pandas as pd

# 创建模拟购物篮数据
data = [['牛奶', '面包', '鸡蛋'], ['牛奶', '面包'], ['面包', '啤酒'], ['牛奶', '啤酒']]

# 将数据转换为二元矩阵
encoded_vals = []
for index, row in enumerate(data):
    for item in row:
        if item not in encoded_vals:
            encoded_vals.append(item)

for row in data:
    temp_row = []
    for item in encoded_vals:
        if item in row:
            temp_row.append(1)
        else:
            temp_row.append(0)
    data[index] = temp_row

# 转换为 Pandas 数据框
df = pd.DataFrame(data, columns=encoded_vals)

# 使用 Apriori 算法生成频繁项集
frequent_itemsets = apriori(df, min_support=0.5, use_colnames=True)

# 使用 association_rules 函数生成关联规则
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)

# 打印关联规则
print(rules)

案例：

假设我们有一组超市购物篮数据，我们可以使用 Apriori 算法发现一些有趣的关联规则，例如“购买了尿布的人也经常购买啤酒”。这个规则虽然看似奇怪，但实际上反映了年轻父母的购买行为。

3.2 其他关联规则挖掘算法

除了 Apriori 算法，还有许多其他的关联规则挖掘算法，例如：

**FP-growth 算法：**一种基于频繁模式树的算法，比 Apriori 算法更加高效。
**Eclat 算法：**一种基于集合交运算的算法，适用于高维数据。

3.3 关联规则评估

如何评估关联规则的效果？常用的评估指标包括：

**支持度：**表示规则中所有项集出现的频率。
**置信度：**表示规则前件成立时，后件成立的概率。
**提升度：**衡量规则的置信度相对于随机情况的提升程度。

总结

无监督学习是一组强大的技术，可以帮助我们从数据中挖掘出隐藏的结构和关系。聚类分析可以将数据划分为不同的组，降维可以将高维数据压缩到低维空间，而关联规则挖掘可以发现数据中的关联关系。这些技术在各个领域都有广泛的应用，例如市场营销、医疗保健、金融等。

补充

除了本文介绍的内容，无监督学习还有很多其他分支和算法，例如：

**异常检测：**识别数据集中与正常模式不同的数据点。
**生成式模型：**学习数据的潜在分布，并生成新的数据。
**强化学习：**让智能体通过与环境交互来学习如何做出最佳决策。

不断探索和学习这些技术，将有助于您更深入地理解数据，并利用数据做出更明智的决策。

斯陀含

关注

12
点赞
踩
29

收藏

觉得还不错? 一键收藏
打赏
0
评论
无监督学习：探索数据中的隐藏结构

无监督学习是一组强大的技术，可以帮助我们从数据中挖掘出隐藏的结构和关系。聚类分析可以将数据划分为不同的组，降维可以将高维数据压缩到低维空间，而关联规则挖掘可以发现数据中的关联关系。这些技术在各个领域都有广泛的应用，例如市场营销、医疗保健、金融等。
复制链接

扫一扫