模式识别使用Fish分类算法和感知器分类算法——数据集可视化和特征选择

zzzCodeDream

已于 2022-03-05 20:25:13 修改

阅读量1.5k

点赞数

分类专栏：模式识别机器学习文章标签：数据挖掘人工智能机器学习 matlab 分类

于 2022-03-05 20:24:00 首次发布

本文链接：https://blog.csdn.net/qq_45709176/article/details/123300236

版权

2 篇文章 1 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

一、数据集简介

本次实验所选取的数据集为：CORK_STOPPERS.xls数据集，即软木塞数据集。

该数据即可在《模式识别》第三版书中的链接下载，也可在我的主页内下载。

下图为本数据集的说明页：

下图为数据集的数据页：

该数据集共有150个数据，每个数据由编号、类别以及10个特征值（如ART 、PRT等）组成。该数据集比较均匀，是一个三分类的数据集，每一类均有50个数据，编号1~50、51~100、100~150分别对应软木塞为高质量、中等质量和低质量的数据。

为了能具体地看出不同特征对分类结果的影响，我使用了python中的seaborn库作出不同特征与分类结果的散点图。每次选择两个特征分别作为x轴和y轴坐标，不同类的数据用不同颜色的点。散点图部分截图如下：

从散点图上看，不同类的点大致上分布在不同的区域，可以用两条直线大致上将三类点分开，故线性分类器是分类本数据集可以选择的一种方法。部分特征可能存在不同类点交叉较为密集的情况，还需通过其他方法确定这些特征。

使用seaborn作图来分析确定各特征与分类结果对分类结果的影响。小提琴图可以用来显示多组数据的分布状态以及概率密度，主要用来显示数据的分布形状。而热力图可以看出两两特征之间的相关性，数字越大相关性越强。

小提琴图：

热力图：

特征选择是模式识别中关键的数据处理步骤，是从原始特征中选择一些最有效的特征以降低数据集维度，而不显著降低分类精度的过程。在数据集特征选择时，有卡方检验、Pearson相关系数等多种原理。

皮尔森相关系数是一种最简单的，能帮助理解特征和响应变量之间关系的方法，衡量是变量之间的线性相关性，取值区间[-1，1]。-1表示完全的负相关，+1表示完全的正相关，0表示没有线性相关。上述的热力图即通过计算相关系数得出。用热力图这种简单直接的方法，可以明显得看出不同特征与类别的相关性。

从热力图上看，分类结果C与其他的10个特征中，只有第二特征“N”和第十特征“RAN”数值低于0.8，其他特征数值均大于0.8，与分类结果有较好的相关性。结合小提琴图，第二特征中三类数据中位数相近，且分布形状相似；第十特征中，一类数据和二类数据中位数相近，二类和三类分布形状相似。

综上，对数据集进行分析和特征选择后，去掉数据集的第二“N”和第十“RAN”特征。

关注