sklearn浅析（五）——Discriminant Analysis

最新推荐文章于 2024-07-22 09:31:55 发布

NirHeavenX

最新推荐文章于 2024-07-22 09:31:55 发布

阅读量1.9w

点赞数 7

分类专栏：学习笔记

本文链接：https://blog.csdn.net/qsczse943062710/article/details/75977118

版权

学习笔记专栏收录该内容

19 篇文章 9 订阅

订阅专栏

sklearn中的判别分析主要包括两类，LinearDiscriminantAnalysis和QuadraticDiscriminantAnalysis

LinearDiscriminantAnalysis

线性判别分析是一种分类模型，它通过在k维空间选择一个投影超平面，使得不同类别在该超平面上的投影之间的距离尽可能近，同时不同类别的投影之间的距离尽可能远，在LDA中，我们假设每一个类别的数据服从高斯分布，且具有相同协方差矩阵 $\Sigma$ 。
此外，由于LDA会将k维数据投影到k-1维的超平面，因此也具有demension reduction的作用。不同于PCA会选择数据变化最大的方向，LDA会主要以类别为思考因素，使得投影后的样本尽可能可分。

关于线性判别分析，详见：LDA

LinearDiscriminantAnalysis

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
da = LinearDiscriminantAnalysis()

LinearDiscriminantAnalysis类的定义

class LinearDiscriminantAnalysis(BaseEstimator, LinearClassifierMixin,
                                 TransformerMixin):
   def __init__(self, solver='svd', shrinkage=None, priors=None,
                 n_components=None, store_covariance=False, tol=1e-4):

solver：str，求解算法，
取值可以为：
- svd：使用奇异值分解求解，不用计算协方差矩阵，适用于特征数量很大的情形，无法使用参数收缩（shrinkage）
- lsqr：最小平方QR分解，可以结合shrinkage使用
- eigen：特征值分解，可以结合shrinkage使用
shrinkage：str or float，是否使用参数收缩
取值可以为：
- None：不适用参数收缩
- auto：str，使用Ledoit-Wolf lemma
- 浮点数：自定义收缩比例
priors：array，用于LDA中贝叶斯规则的先验概率，当为None时，每个类priors为该类样本占总样本的比例；当为自定义值时，如果概率之和不为1，会按照自定义值进行归一化
components：int，需要保留的特征个数，小于等于n-1
store_covariance：是否计算每个类的协方差矩阵，0.19版本删除

LinearDiscriminantAnalysis类的fit方法

 def fit(self, X, y, store_covariance=None, tol=None):
    类型检查，包括priors的检测               
    根据不同的solver调用不同的求解方法

fit()方法里根据不同的solver调用的方法均为LinearDiscriminantAnalysis的类方法

fit()返回值：

self：LinearDiscriminantAnalysis实例对象

属性：

covariances_：每个类的协方差矩阵， shape = [n_features, n_features]
means_：类均值，shape = [n_classes, n_features]
priors_：归一化的先验概率
rotations_：LDA分析得到的主轴，shape [n_features, n_component]
scalings_：数组列表，每个高斯分布的方差 $\sigma$

QuadraticDiscriminantAnalysis

QuadraticDiscriminantAnalysis类似于LDA，不同的地方是它可以形成非线性的边界，并且不同的类所属的高斯分布具有不同的协方差矩阵。

QuadraticDiscriminantAnalysis的使用

from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
da = QuadraticDiscriminantAnalysis()

QuadraticDiscriminantAnalysis类的定义

class QuadraticDiscriminantAnalysis(BaseEstimator, ClassifierMixin):
   def __init__(self, priors=None, reg_param=0., store_covariances=False,
                 tol=1.0e-4):

reg_param：float，正则化参数，规范化协方差： $(1-reg\_param)*\Sigma + reg\_param*I$

QuadraticDiscriminantAnalysis类的fit方法

def fit(self, X, y, store_covariances=None, tol=None):
    类型检查
    for ind in xrange(n_classes):
        Xg = X[y == ind, :]
        meang = Xg.mean(0)
        Xgc = Xg - meang#特征的归一化，使其均值为0
        U, S, Vt = np.linalg.svd(Xgc, full_matrices=False)
        rank = np.sum(S > self.tol)
        if rank < n_features:
            warnings.warn("Variables are collinear")#SVD，对奇异值矩阵S进行秩的判断
        S2 = (S ** 2) / (len(Xg) - 1)
        scalings_ = ((1 - self.reg_param) * S2) + self.reg_param
        covariances_= np.dot(S2*Vt.T, Vt)
        rotations_ = Vt.T#参数求解

fit()方法里根据不同的solver调用的方法均为LinearDiscriminantAnalysis的类方法

fit()返回值：

self：QuadraticDiscriminantAnalysis实例对象

属性：

同LDA

LDA和QDA除了前述linear_model的方法外，还有一个predict_proba(X)和predict_log_proba(X)来求对于给定样本X，数据属于不同类别的概率。

NirHeavenX

关注

7
点赞
踩
35

收藏

觉得还不错? 一键收藏
0
评论
sklearn浅析（五）——Discriminant Analysis

sklearn中的判别分析主要包括两类，LinearDiscriminantAnalysis和QuadraticDiscriminantAnalysisLinearDiscriminantAnalysis 线性判别分析是一种分类模型，它通过在k维空间选择一个投影超平面，使得不同类别在该超平面上的投影之间的距离尽可能近，同时不同类别的投影之间的距离尽可能远，在LDA中，我们假设每一个类别的数据服从高
复制链接

扫一扫

专栏目录