无监督机器学习简介

最新推荐文章于 2024-04-23 21:35:03 发布

早上真好

最新推荐文章于 2024-04-23 21:35:03 发布

阅读量855

点赞数 32

分类专栏： AIGC 文章标签：机器学习人工智能 AIGC

本文链接：https://blog.csdn.net/raw_inputhello/article/details/136439117

版权

AIGC 专栏收录该内容

16 篇文章 4 订阅

订阅专栏

本文介绍了无监督学习的基础概念，重点关注了K-means聚类和PCA降维算法，探讨了它们在市场细分和异常检测中的应用，并指出了过拟合和欠拟合等挑战及相应的评估方法。

摘要由CSDN通过智能技术生成

无监督机器学习简介

基础概念

无监督学习定义

无监督学习是机器学习的一种类型，它不依赖于预先标记的训练数据。相反，它试图从未标记的数据中找出一些结构或模式。这种类型的学习在许多领域都有应用，包括聚类分析、降维和关联规则学习等。

有监督学习与无监督学习的区别

有监督学习：有监督学习需要依赖标记过的训练数据，也就是说，每个训练样本都有一个明确的输出或标签。算法的目标是学习一个从输入到输出的映射函数，使得对新数据的预测误差最小。常见的有监督学习任务包括分类和回归。
无监督学习：无监督学习则不需要依赖标记的训练数据。算法的目标是发现数据中的隐藏结构或模式。常见的无监督学习任务包括聚类和降维。

以下是一个使用Python的sklearn库进行聚类分析的简单示例：

from sklearn.cluster import KMeans
import numpy as np

# 生成随机数据
X = np.random.rand(100, 2)

# 创建KMeans对象，设置聚类数量为3
kmeans = KMeans(n_clusters=3)

# 拟合数据
kmeans.fit(X)

# 打印聚类中心
print(kmeans.cluster_centers_)

主要算法

聚类算法

聚类算法是一种无监督学习算法，主要用于将数据集划分为若干个组或“簇”，使得同一组内的数据对象彼此相似，而不同组之间的数据对象则尽可能不同。常见的聚类算法有K-means、层次聚类等。

K-means

K-means是一种常用的聚类算法，其基本思想是通过迭代计算，将数据集划分为K个簇，使得每个簇内的数据点到簇中心的距离之和最小。

算法步骤

随机选择K个数据点作为初始的簇中心；
将每个数据点分配到距离其最近的簇中心所在的簇；
计算每个簇内数据点到簇中心的平均值，更新簇中心；
重复步骤2和3，直到簇中心不再发生变化或达到最大迭代次数。

代码示例

from sklearn.cluster import KMeans
import numpy as np

# 生成随机数据
data = np.random.rand(100, 2)

# 设置聚类数量
k = 3

# 创建KMeans模型
kmeans = KMeans(n_clusters=k)

# 训练模型
kmeans.fit(data)

# 预测结果
labels = kmeans.predict(data)

降维算法

降维算法是一种无监督学习算法，主要用于减少数据集的特征维度，从而降低计算复杂度和避免“维度灾难”。常见的降维算法有主成分分析（PCA）、线性判别分析（LDA）等。

PCA（主成分分析）

PCA是一种常用的降维算法，其基本思想是通过线性变换将原始特征空间映射到一个低维空间，保留原始数据中的主要信息。

算法步骤

计算数据集的均值；
对每个特征减去均值并求协方差矩阵；
计算协方差矩阵的特征值和特征向量；
选择前k个最大的特征值对应的特征向量组成投影矩阵；
将原始数据投影到低维空间。

应用场景

市场细分

无监督机器学习在市场细分中有着广泛的应用。通过聚类算法，可以将客户分为不同的群组，每个群组具有相似的行为和偏好。这有助于企业更好地理解其目标受众，并制定个性化的营销策略。

例如，假设我们有一个包含客户年龄、收入和购买历史的数据集中，我们可以使用K-means聚类算法将这些客户分为不同的群组。以下是使用Python实现K-means聚类的示例代码：

from sklearn.cluster import KMeans
import numpy as np

# 数据集
data = np.array([[25, 80000, 3], [35, 90000, 2], [45, 120000, 1]])

# 设置聚类数量
num_clusters = 2

# 创建K-means模型并进行拟合
kmeans = KMeans(n_clusters=num_clusters)
kmeans.fit(data)

# 输出聚类结果
print("聚类中心：", kmeans.cluster_centers_)
print("每个样本所属的群组：", kmeans.labels_)

异常检测

无监督机器学习还可以用于异常检测。通过识别数据中的异常值或离群点，可以帮助企业发现潜在的问题，例如欺诈行为、设备故障等。

例如，假设我们有一个包含传感器读数的时间序列数据，我们可以使用孤立森林算法来检测异常值。以下是使用Python实现孤立森林算法的示例代码：

from sklearn.ensemble import IsolationForest
import numpy as np

# 数据集
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12], [13, -10, 14]])

# 创建孤立森林模型并进行拟合
iforest = IsolationForest(contamination=0.1)
iforest.fit(data)

# 输出异常检测结果
print("异常样本索引：", iforest.predict(data))