优化理论模型与分析
一、主成分分析PCA
1、问题提出
高维->低维;低维->高维
对问题抽象:高度概括,用少数几个指标讲清楚
Eg:主成分分析后将17个变量简化成了3个新变量,精度还能比较高。
一般:有数据的时候,一定要把变化率拿出来。
用数据来说话,否则说服力不强,尽管有些许误差。
1、把6个变量用一两个综合变量来表示
2、综合变量包含有多少原来的信息
3、对数据排序、如何解释数据
相关–可以合并一些数据
噪声:去噪
2、原理
基本思想:研究如何以较少的信息丢失将众多原有变量浓缩成少数几个因子,使这些主成分在一定程度上复现原有变量所携带的信息的多元统计分析方法。
对高维变量进行降维处理。
n个样本,每个样本观测p个指标X1,X2,Xp
均值、方差、标准差、协方差 特征值、特征向量
协方差:两个随机变量的关系的统计量
向中心点(一般是均值)平移
平移、旋转坐标系,将二维降为一维-----所表示的形状没有改变、可以更清晰
只有在空间的维度非常相关的时候,主成分分析
删去一个维度的时候,起到了浓缩作用
方差集中在F1上,而F2上的方差很小,F1、F2都是主成分,F2描述了次要变化(舍去)->完成了空间的降维。
高维也适用(高维椭球)代表大多数据据信息的最长的几个轴
- 主成分与原始变量之间的关系
- 每个主成分都是原始变量的线性组合
- 各个主成分之间互不相关,且是互相独立的
- 主成分保留了原始变量的绝大部分信息
- 选择的主成分个数远远少于原有变量的个数
3、求解
数据矩阵看成是一个多维变量(在多维空间)
- 对数据矩阵进行中心化、单位化处理:相对于原始变量进行坐标平移,[-1.1]单位化
- 求样本的协方差矩阵–实对称半正定
- 计算样本协方差矩阵的特征值和特征向量(特征值)
- 写出主成分,计算主成分的贡献率及累积贡献率(一般达到85%),就可以掐断了,得到新的维数。
主要目的,用尽可能少的主成分代替原来的指标
- 选取主成分进行分析解释
4、实例
公司打分
本科生成绩
二、线性分类器Fisher
1、引言:模式辨别系统
线性分类器
预处理、特征提取、分类
监督学习:已知训练集
哪怕结果错了,但是使用数据说话,仍然有说服力
升一个维度,近似线性分类器
2、判别分析一:距离分析
首先根据已知的分类的依据,分别计算各类的重心,计算新个体到每类的距离,确定最短的距离(欧氏距离、马氏距离)
马氏距离------(x-x拔)/标准差
马氏距离:带权重
3、判别分析二:Fisher分析
原则:同类差别较小,不同类差别较大
基本原理:找到一个最合适的投影轴,使两类样本再该轴上的投影之间的距离尽可能远,而每一类样本的投影尽可能紧凑,从而使两类分类的效果为最佳。
用投影后的数据的统计性质-均值和离散度的函数作为判别优劣的标准。
X空间样本分布的统计量描述
-
各类样本的均值向量
-
类内离散度矩阵Si与总类内的离散度矩阵Sw
-
样本间离散度矩阵Sb:直接去重心距离的平方(方差)
Sb/Sw尽可能大
Fisher标准函数:Sb/Sw尽可能大(投影后)
-拉格朗日乘数法解决求最值
- 算法步骤
- 把来自两类的训练样本分开两个子集
- 计算各类的均值向量
- 计算各类的类内离散度矩阵(协方差矩阵)
- 计算类内总离散度矩阵Sw=S1+S2
- 计算矩阵sw的逆矩阵
- 求解向量
两中心点的连线的方向略微偏一点
支持向量机
四、实例
交叉验证,先留一个原数据,用来做检验