基于PCA降维的模式识别系统的设计与实现

基于PCA降维的模式识别系统的设计与实现

1.1 主要研究内容

(1)工作的主要描述

本次作业的主要目的是结合课内课外所学知识设计一个简单的模式识别系统对电离层公开数据进行分类、通过主成分分析(PCA)特征提取方法探索降维对分类性能的影响并学习一些常见分类器的基本原理及程序实现。

(2)系统流程图

系统流程图如图1所示,为方便理解,在此对两个循环进行解释:内层循环是为了探索在使用相同训练集和测试集的情况下不同程度的降维对不同分类器分类性能的影响;外层循环是为了使结果更具普遍性,使用不同的训练集和测试集进行重复实验,最后图像展示的结果是每次外层循环所记录结果的平均值。

1.2 工作基础或实验条件

(1)硬件环境

主机:CPU:Intel(R) Core(TM) i5-6300HQ 2.30GHz

           内存:8G

           操作系统:Windows10

(2)软件环境

     编程平台:Visual Studio 2017

     编程语言:Python3.6

1.3 数据集描述

电离层数据集实际上起源于1989年,该数据集包含由拉布拉多鹅湾的雷达系统收集的数据,该系统由16个高频天线的相控阵列组成,旨在检测电离层中的自由电子。一般来说,电离层有两种类型的结构:“好”和“坏”,雷达会检测并传递这些信号结构。数据集中有34个自变量(特征值)和1个因变量(目标值),总共有351个观测值,其中无缺失值。

1.4 特征提取过程描述

通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。求得降维后的特征值的根本在于原始特征空间的重构,它有两个出发点:一个是最大投影方差、另一个是最小重构距离,两种方法的基本原理是相似的。以下使PCA降维的步骤:

(1) 将原始数据进行标准化(一般是去均值,如果特征在不同的数量级上,则还要将其除以标准差);

(2) 计算标准化数据集的协方差矩阵;

(3) 计算协方差矩阵的特征值;

(4) 保留最重要(特征值最大)的前k个特征(k表示降维后的维度);

(5) 计算这k个特征值对应的特征向量;

(6) 将标准化数据集乘以该k个特征向量,得到降维后的结果。

1.5 分类过程描述

(1) K均值

K均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为k组,则随机选取k个样本作为初始的聚类中心,然后计算每个样本与各个初始聚类中心之间的距离,把每个样本分配给距离它最近的聚类中心。所有样本分配完后,聚类的聚类中心会根据聚类中现有的样本被重新计算,直到聚类中心不再变化。

(2) 最小风险贝叶斯

最小风险贝叶斯算法将样本划分到后验概率大的那一类中去。后验概率=(先验概率×条件概率)/全概率,由于在判断的时候全概率的值是相同的所以不需计算,只需计算先验概率和条件概率。

(3) 决策树

决策树分类算法是一种基于实例的归纳学习方法,它能从给定的无序的训练样本中,提炼出树型的分类模型。树中的每个非叶子节点记录了使用哪个特征来进行类别的判断,每个叶子节点则代表了最后判断的类别。根节点到每个叶子节点均形成一条分类的路径规则。而对新的样本进行测试时,只需要从根节点开始,在每个分支节点进行测试,沿着相应的分支递归地进入子树再测试,一直到达叶子节点,该叶子节点所代表的类别即是当前测试样本的预测类别。

(4) KNN

KNN可以用于分类和回归,是一种监督学习算法。它的思路是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。也就是说,该方法在分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

(5) 逻辑回归

逻辑回归就是在多元线性回归的基础之上把结果缩放到0-1之间,缩放使用的函数是Sigmoid函数,经过Sigmoid缩放后的结果以0.5作为分界线,越接近于正1越是正例,越接近于0越是负例。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李逍遥敲代码

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值