人工智能与机器学习——采用线性LDA、k-means和SVM算法进行二分类可视化分析

最新推荐文章于 2023-05-27 09:19:39 发布

栗子NZ

最新推荐文章于 2023-05-27 09:19:39 发布

阅读量1k

点赞数

分类专栏：人工智能与机器学习文章标签：算法 python 机器学习聚类

本文链接：https://blog.csdn.net/qq_42559980/article/details/106213469

版权

人工智能与机器学习——采用线性LDA、k-means和SVM算法进行二分类可视化分析

一、原理介绍

1. 线性判别分析（LDA）

LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的，这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”，如下图所示。我们要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。
在这里插入图片描述

2. K均值聚类算法 k-means

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

3. SVM（支持向量机）算法

支持向量机(support vector machine)是一种分类算法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

二、线性LDA算法对鸢尾花数据集合月亮数据集二分类

1. 鸢尾花数据集

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_classification

class LDA():
    def Train(self, X, y):
        # X为训练数据集，y为训练label
        X1 = np.array([X[i] for i in range(len(X)) if y[i] == 0])
        X2 = np.array([X[i] for i in range(len(X)) if y[i] == 1])
        # 求中心点
        mju1 = np.mean(X1, axis=0)  # mju1是ndrray类型
        mju2 = np.mean(X2, axis=0)
        # dot(a, b, out=None) 计算矩阵乘法
        cov1 = np.dot((X1 - mju1).T, (X1 - mju1))
        cov2 = np.dot((X2 - mju2).T, (X2 - mju2))
        Sw = cov1 + cov2
        # 计算w
        w = np.dot(np.mat(Sw).I, (mju1 - mju2).reshape((len(mju1), 1)))
        # 记录训练结果
        self.mju1 = mju1  # 第1类的分类中心
        self.cov1 = cov1
        self.mju2 = mju2  # 第2类的分类中心
        self.cov2 = cov2
        self.Sw = Sw  # 类内散度矩阵
        self.w = w  # 判别权重矩阵
    def Test(self, X, y):
        """X为测试数据集，y为测试label"""
        # 分类结果
        y_new = np.dot((X), self.w)
        # 计算fisher线性判别式
        nums = len(y)
        c1 = np.dot((self.mju1 - self.mju2).reshape(1, (len(self.mju1))), np.mat(self.Sw).I)
        c2 = np.dot(c1, (self.mju1 + self.mju2).reshape((len(self.mju1), 1)))
        c = 1/2 * c2  # 2个分类的中心
        h = y_new - c
        # 判别
        y_hat = []
        for i in range(nums):
            if h[i] >= 0:
                y_hat.append(0)
            else:
                y_hat.append(1)
        # 计算分类精度
        count = 0
        for i in range(nums):
            if y_hat[i] == y[i]:
                count += 1
        precise = count / nums
        # 显示信息
        print("测试样本数量:", nums)
        print("预测正确样本的数量:", count)
        print("测试准确度:", precise)
        return precise
    
if '__main__' == __name__:
    # 产生分类数据
    n_samples = 500
    X, y = make_classification(n_samples=n_samples, n_features=2, n_redundant=0, n_classes=2,n_informative=1, n_clusters_per_class=1, class_sep=0.5, random_state=10)
    # LDA线性判别分析(二分类)
    lda = LDA()
    # 60% 用作训练ÿ

最低0.47元/天解锁文章

栗子NZ

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
人工智能与机器学习——采用线性LDA、k-means和SVM算法进行二分类可视化分析

人工智能与机器学习——采用线性LDA、k-means和SVM算法进行二分类可视化分析一、原理介绍1. 线性判别分析（LDA）2. K均值聚类算法 k-means3. SVM（支持向量机）算法二、线性LDA算法对鸢尾花数据集合月亮数据集二分类1. 鸢尾花数据集2. 月亮数据集三、K-means对鸢尾花数据集合月亮数据集二分类1. 鸢尾花数据集2. 月亮数据集四、SVM算法对鸢尾花数据集合月亮数据集二分类1. 鸢尾花数据集2. 月亮数据集五. SVM算法的优点一、原理介绍1. 线性判别分析（LDA）LDA
复制链接

扫一扫

专栏目录