模式识别使用Fish分类算法和感知器分类算法——数据集可视化和特征选择

一、数据集简介

本次实验所选取的数据集为:CORK_STOPPERS.xls数据集,即软木塞数据集。

该数据即可在《模式识别》第三版书中的链接下载,也可在我的主页内下载。

下图为本数据集的说明页:

下图为数据集的数据页:

该数据集共有150个数据,每个数据由编号、类别以及10个特征值(如ART 、PRT等)组成。该数据集比较均匀,是一个三分类的数据集,每一类均有50个数据,编号1~50、51~100、100~150分别对应软木塞为高质量、中等质量和低质量的数据。

二、数据集可视化

为了能具体地看出不同特征对分类结果的影响,我使用了python中的seaborn库作出不同特征与分类结果的散点图。每次选择两个特征分别作为x轴和y轴坐标,不同类的数据用不同颜色的点。散点图部分截图如下:

从散点图上看,不同类的点大致上分布在不同的区域,可以用两条直线大致上将三类点分开,故线性分类器是分类本数据集可以选择的一种方法。部分特征可能存在不同类点交叉较为密集的情况,还需通过其他方法确定这些特征。

使用seaborn作图来分析确定各特征与分类结果对分类结果的影响。小提琴图可以用来显示多组数据的分布状态以及概率密度,主要用来显示数据的分布形状。而热力图可以看出两两特征之间的相关性,数字越大相关性越强。

小提琴图:

热力图:

三、特征选择

特征选择是模式识别中关键的数据处理步骤,是从原始特征中选择一些最有效的特征以降低数据集维度,而不显著降低分类精度的过程。在数据集特征选择时,有卡方检验、Pearson相关系数等多种原理。

皮尔森相关系数是一种最简单的,能帮助理解特征和响应变量之间关系的方法,衡量是变量之间的线性相关性,取值区间[-1,1]。-1表示完全的负相关,+1表示完全的正相关,0表示没有线性相关。上述的热力图即通过计算相关系数得出。用热力图这种简单直接的方法,可以明显得看出不同特征与类别的相关性。

从热力图上看,分类结果C与其他的10个特征中,只有第二特征“N”和第十特征“RAN”数值低于0.8,其他特征数值均大于0.8,与分类结果有较好的相关性。结合小提琴图,第二特征中三类数据中位数相近,且分布形状相似;第十特征中,一类数据和二类数据中位数相近,二类和三类分布形状相似。

    综上,对数据集进行分析和特征选择后,去掉数据集的第二“N”和第十“RAN”特征。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值