数据分析学习总结笔记08:数据分类典型方法及其R语言操作
统计建模与数据挖掘中面对的三大重要问题:预测、分类和 聚类。本文学习总结其中的分类问题,主要介绍判别分析方法和logistic回归,这两种方法在现实应用中也十分普遍。
1 判别分析
1.1 判别分析简介
1.1.1 判别分析概念
判别分析(Discriminat Analysis)是多元分析中用于判别样本所属类型的一种统计分析方法。
- 在已知的分类之下,对新的样本,可以利用此方法选定一判别标准,以判定将该新样品放置于哪个类中。
- 适用于数据集较小的情况,因为数据量够大的话神经网络的准确率会比传统的判别分析高得多
- 判别分析的用途甚多:医学疾病诊断、动植物分类、商品等级划分和商业银行客户评级等。
1.1.2 判别分析的种类
(1)确定性判别:Fisher型判别
- 线性型
- 距离型
- 非线性型
(2)概率性判别:Bayes型判别
- 概率型
- 损失型
1.2 距离判别法
1.2.1 两总体距离判别
设μ1,μ2,Σ1,Σ2分别为两个类G1,G2的均值向量和协方差阵。
- 马氏距离(欧式距离只考虑了样本中心点的位置,马氏距离不仅考虑了样本中心点的位置,还考虑了样本各个特征间的相互关系以及样本的度量):
- 判别准则:
(1)等方差阵:直线判别
(2)异方差阵:曲线判别
1.2.2 多总体距离判别
与两总体距离判别类似:
- 首先假定k个类别样本分属k个正态总体;
- 然后基于马氏距离,依次建立建立判别函数和判别规则;
- 基于样本信息,估计判别规则中的未知参数;
- 带入未知样本信息,判别其类别。
(1)协方差矩阵相同:线性判别
(2)协方差矩阵不同:非线性判别