线性判别准则和线性分类算法

最新推荐文章于 2024-01-09 01:17:37 发布

m0_61811389

最新推荐文章于 2024-01-09 01:17:37 发布

阅读量298

点赞数

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_61811389/article/details/121168211

版权

本文探讨了线性判别分析（LDA）的思想和优缺点，强调其在利用类别先验知识和最大化类间距离方面的优势，同时指出其在非高斯分布和降维限制上的局限。接着介绍了支持向量机（SVM）的基本概念，作为非线性分类器的优势。最后，通过编程实践展示了LDA在鸢尾花数据集和月亮数据集上的应用，以及SVM对月亮数据集的分类效果。

摘要由CSDN通过智能技术生成

一、线性判别-LDA

1.思想

LDA的思想是：最大化类间均值，最小化类内方差。意思就是将数据投影在低维度上，并且投影后同种类别数据的投影点尽可能的接近，不同类别数据的投影点的中心点尽可能的远。

2.优缺点

LDA算法的优点

①在降维过程中可以使用类别的先验知识经验；

②LDA在样本分类信息依赖均值而不是方差的时候。

LDA算法的缺点

①LDA不适合对非高斯分布样本进行降维

②LDA降维算法最多降到类别数K-1的维度，当降维的维度大于K-1时，则不能使用LDA。当然目前有一些改进的LDA算法可以绕过这个问题

③LDA在样本分类信息依赖方差而非均值的时候，降维效果不好

LDA可能过度拟合数据

二.线性分类算法-svm向量机

1.介绍

支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。

三.编程

1.LDA算法-鸢尾花

代码：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets._samples_generator import make_classification

class LDA():
    def Train(self, X, y):
        """X为训练数据集，y为训练label"""
        X1 = np.array([X[i] for i in range(len(X)) if y[i] == 0])
        X2 = np.array([X[i] for i in range(len(X)) if y[i] == 1])

        # 求中心点
        mju1 = np.mean(X1, axis=0)  # mju1是ndrray类型
        mju2 = np.mean(X2, axis=0)

        # dot(a, b, out=None) 计算矩阵乘法
        cov1 = np.dot((X1 - mju1).T, (X1 - mju1))
        cov2 = np.dot((X2 - mju2).T, (X2 - mju2))
        Sw = cov1 + cov2
        # 计算w
        w = np.dot(np.mat(Sw).I, (mju1 - mju2).reshape((len(mju1), 1)))
        # 记录训练结果
        self.mju1 = mju1  # 第1类的分类中心
        self.cov1 = cov1
        self.mju2 = mju2  # 第2类的分类中心
        self.cov2 = cov2
        self.Sw = Sw  # 类内散度矩阵
        self.w = w  # 判别权重矩阵
    def Test(self, X, y):
        """X为测试数据集，y为测试label"""
        # 分类结果
        y_new = np.dot((X), self.w)
        # 计算fisher线性判别式
        nums = len(y)
        c1 = np.dot((self.mju1 - self.mju2).reshape(1, (len(self.mju1))), np.mat(self.Sw).I)
        c2 = np.dot(c1, (self.mju1 + self.mju2).reshape((len(self.mju1), 1)))
        c = 1/2 * c2  # 2个分类的中心
        h = y_new - c
        # 判别
        y_hat = []
        for i in range(nums):
            if h[i] >= 0:
                y_hat.append(0)
            else:
                y_hat.append(1)
        # 计算分类精度
        count = 0
        for i in range(nums):
            if y_hat[i] == y[i]:
                count += 1
        precise = count / nums
        # 显示信息
        print("测试样本数量:", nums)
        print("预测正确样本的数量:", count)
        print("测试准确度:", precise)
        return precise

最低0.47元/天解锁文章

m0_61811389

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线性判别准则和线性分类算法

目录一、线性判别-LED1.思想2.优缺点二.线性分类算法-svm向量机1.介绍三.编程1.LDA算法-鸢尾花2. 处理月亮数据集3.对月亮数据集进行SVM分类一、线性判别-LED1.思想LDA的思想是：最大化类间均值，最小化类内方差。意思就是将数据投影在低维度上，并且投影后同种类别数据的投影点尽可能的接近，不同类别数据的投影点的中心点尽可能的远。2.优缺点LDA算法的优点①在降维过程中可以使用类别的先验知识经验；②LDA在样.
复制链接

扫一扫