采用线性LDA、k-means和SVM算法对鸢尾花数据集和月亮数据集进行二分类可视化分析

该博客介绍了SVM、k-means和线性LDA算法,并分别应用于鸢尾花和月亮数据集进行二分类。SVM通过最大化间隔来划分类别,k-means则根据样本间距离聚类。线性LDA在低维空间中使同类数据紧凑,不同类分散。尽管月亮数据集的LDA分类存在错误,但SVM因其在高维特征和非线性问题上的优势,展现出较高的分类准确性和泛化能力。
摘要由CSDN通过智能技术生成

采用线性LDA、k-means和SVM算法对鸢尾花数据集和月亮数据集进行二分类可视化分析

SVM,k-means,线性LDA算法简介

SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。
k-means是将对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。
线性LDA是将数据投影到低维空间之后,使得同一类数据尽可能的紧凑,不同类的数据尽可能分散。

对两个数据集采用线性LDA进行分类

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

# 读取数据,并提取花瓣长度和宽度特征
iris = datasets.load_iris()
X = iris["data"][:, (2, 3)]  # petal length, petal width

plt.scatter(X[:49, 0], X[:49, 1], color='green', marker='o', label='setosa')
plt.scatter(X[49:99, 0], X[49: 99, 1], color='blue', marker='x', label='versicolor')
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend(loc='upper left')
plt.title("鸢尾花数据",fontsize=20)
plt.show()

结果显示:
在这里插入图片描述
月亮数据集分类有错误,没有进行分类,等待修改

from sklearn.datasets import make_moons
X, y = make_moons(n_samples=100, noise=0.15, random_state=42)

def plot_dataset(X, y, axes):
    plt.plot(X[:, 0][y==0], X[:, 1][y==0], "bs")
    plt.plot(X[:, 0][y==
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值