【非参数统计】概念及方法归纳比较（超适合期末复习）

最新推荐文章于 2022-07-04 16:20:55 发布

Karency_

最新推荐文章于 2022-07-04 16:20:55 发布

阅读量4.2k

点赞数 4

文章标签：线性代数

本文链接：https://blog.csdn.net/qq_46612803/article/details/124362239

版权

非参数统计是什么？

在许多实际问题中，数据的分布形态和数据之间的关系常常是不能任意假定的。探索性问题研究中，往往对总体信息知之甚少。有时，数据并不是来自所假定分布的总体。这样，在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是，人们希望在不假定总体分布的情况下，尽量从数据本身来获得所需要的信息。这就是非参数统计。

非参数统计的优点

对总体假定较少，有广泛的适用性，结果稳定性较好：

假定较少。
不需要对总体参数的假定。
与参数结果接近。

非参数统计的弱点

可能会浪费一些信息，特别当数据可以使用参数模型的时候。
大样本手算相当麻烦。
一些表不易得到。

Pearson相关系数的局限性

两个变量间的线性相关。
两个变量的所属总体呈正态分布。
两个变量是连续变量。
样本量大于 30 。
异常值的影响。

Pearson相关系数与Spearman相关系数的比较

斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格。
只要两个变量的观测值是成对的等级评定资料，或者是由连续变量观测资料转化得到的等级资料。
不论两个变量的总体分布形态、样本容量的大小如何，都可以用斯皮尔曼等级相关系数来进行研究。
异常值的秩次通常不会有明显的变化。

Kendall τ相关检验概念与领域

肯德尔相关性系数，又称肯德尔秩相关系数，也是一种秩相关系数，不过它所计算的对象是分类变量，分类变量可以分为

无序的，比如性别(男、女)、血型(A、B、O、AB)
有序的，比如肥胖等级(重度肥胖，中度肥胖、轻度肥胖、不肥胖)

McNemar检验适用范围

MeNemar检验严格意义上来说并不适用于一致性检验，而是有倾向性的，因为对于不一致有贡献的只有对角线上的元素，于是它只运用非主对角线单元格上的信息，即它只关心两者
不一致的评价情况，用于比较两个评价者间存在怎样的倾向。因此，对于一致性较好的大样本数据，MeNemar检验可能会失去实用价值。例如对 1 万个案例进行一致性评价， 9995 个都是完全一致的，在主对角线上，另有 5 个分布在左下的三角区，显然，此时一致性相当的好。但如果使用McNemar检验，此时反而会得出两种评价有差异的结论。
一致性检验则没有倾向性

OLS回归的缺点

对异常值特别敏感。
是均值回归 ，E(ylx)只是刻画条件分布ylx集中趋势的指标，而我们关心x对整个条
件分布yl x的影响。
假设严格 ，误差项条件均值为零，且方差独立同分布，即ylx服从渐进正态分布;如
果ylx不是对称分布，则E(ylx)很难反映条件分布的全貌。

普通最小二乘法和分位数回归的区别

普通最小二乘法是利用因变量的条件均值来建模，通过使残差平方和达到最小来获得回归参数的估计。

分位数回归则利用因变量的条件分位数来建模，通过最小化加权的残差绝对值之和来估计回归参数。它可以称之为“加权的最小一乘回归法”。

分位数回归相比于普通最小二乘估计的优点

当数据出现尖峰或厚尾的分布、存在显著的异方差等情况，最小二乘法估计将不再具有优良性质，且稳健性非常差。分位数回归系数估计比OLS估计更稳健。最小二乘估计假定解释变量只能影响被解释变量的条件分布的均值位置，不能影响其分布的刻度或形状的任何其他方面。而分位数回归估计能精确地描述解释变量对于被解释变量的变化范围以及条件分布形状的影响。

普通最小二乘法和中位数回归的区别

对于之前的 OLS 来说，就是使得残差平方和最小，即损失函数为平方损失函数，此为最小二乘回归;
而中位数回归的损失函数为绝对值损失函数，则称为最小一乘回归，使得残差绝对值的救最小;

Kappa一致性检验和配对卡方检验对比

Kappa检验旨在评价两种方法是否存在一致性配对x2检验主要确定两种方法诊断结果是否有差别。
Kappa检验会利用列联表的全部数据配对x2检验只利用“不一致“数据。
Kappa检验可计算Kappa值用于评价一致性大小，配对x2检验只给出两种方法差别是否具有统计学意义的判断。

Ridit检验总结

总的来说：一个是分组变量，一个是顺序变量。

参照组的选择：

两组比较：

一组例数明显多于另一组，该组做参照组传统方法做参照组。
两组没有明显区别，合计后做参照组。

多组比较：

某一组例数特别多于其他组，该组做参照组否则，各组例数合计作为参照组。

⚫ 如果等级是从优到劣的顺序，则平均Ridit值越小越好。
⚫ 如果等级是从劣到优的顺序，则平均Ridit值越大越好。
⚫ 不能单纯平均Ridi值判别各组差异，必须利用置信区间或统计检验进行判断。

直方图密度估计原理与特点

直方圈的特点是简单易懂
缺点：

密度函数是不平滑的;
密度函数受子区间(即每个直方体)宽度影响很大同样的原始数据如果取不同的子区间范围，那么展示的结果可能是完全不同的。
直方图的技巧在于确定组距和组数，组数过多或过少都会淹没主要特征。采用不同的核函数都可以获得一致性的结论(整体趋势和密度分布规律性基本一致)，
但核密度函数也不是完美的，除了核算法的选择外， 带宽(bandwidth)也会影响密度估计 ，过大或过小的带宽值都会影响估计结果。

直方图密度估计原理与特点

核密度估计是在概率论中用来估计未知的密度函数属于非参数检验方法之一，又名Parzen窗。所谓核密度估计，就是采用平滑的峰值函数(“核”)来拟合观察到的数据点，从而
对真实的概率分布曲线进行模拟，核密度估计在估计边界区域的时候会出现 边界效应。

多项式回归

1. Nadaraya-Watson核回归：
1 ） 基本思路： 估计点x处y的取值，按照距离x的远近对样本观测值𝑦𝑖加权即可
2 ） 优点： 实现了局部加权
3 ） 缺点： 加权的权重在局部邻域内是常量，由于加权是基于整个样本点的，因此在边
界往往估计不理想。如果内部数据分布不均匀，那些恰好位于高密度附近的内点的
核回归也会存在较大的偏差。
2. 局部线性回归：
1 ） 基本思路： 用一个变动的函数取代局部固定的权值，最直接的做法是在待估点x的
邻域内用一个线性函数𝑌𝑖=𝑎(𝑥)+𝑏(𝑥)𝑋𝑖 ,𝑋𝑖∈[𝑥−ℎ,𝑥+ℎ]取代𝑌𝑖的平均值，其
中a(x)和b(x)是两个局部参数。
2 ） 优点： 与真实函数相比较，局部线性回归较好的克服了边界的偏差
3 ） 缺点： 在曲线导函数符号改变的附近仍然存在偏差，又由于导函数改变的点通常为
极值点，因而呈现出过高或过低的点均被平滑掉的效果。
3. 一般的局部多项式回归：
1 ） 基本思想： 局部p阶多项式回归为最小化p阶多项式，利用带宽、核函数和倒数
估计加权最小二乘问题(p250)
2 ） 缺点： 异常点可能造成线性回归模型最小二乘估计发生偏差
4. LOWESS稳健回归
1 ） 基本思想： 目的是改进局部线性拟合方法来降低异常点对估计结果的影响。先用局
部线性回归进行拟合，然后定义稳健权数并进行平滑，由于稳健权数可将异常值排
除在外，并且初始残差偏大（小）的观测值在下一次局部线性回归中的权数就更小
(大)，重复运算几次之后就可以消除异常值的影响，得到稳健的回归。

样条回归

基本思想： 使用多段平滑曲线对样本数据进行拟合，并保证这些曲线的接口处也是平滑
的，即两侧曲线在接口处的拟合值和导数均一致。常用的平滑曲线有B样条曲线和自然
样条曲线。
通俗理解： 样条回归，可以看做是一个逐段回归或分段回归，通俗点说，就是把数据分
为几段，在每一段内分别拟合模型，每一段内可以拟合直线、二次项、三次项等，根据实际情况而定。
3. B-spline样条基函数
B样条曲线是由若干个最高幂相同的多项式曲线组成的。要求连接处光滑。
缺点： 在x取值的两端，往往预测的方差会非常大，也就是95%的可信区间非常宽
4. 自然样条基函数
自然样条曲线是一个带有约束条件的三次样条曲线。
两者差异
样条曲线回归和多项式回归的差别就在于，它可以通过增加自由度或节点来实现分段回归并
保持接口处平滑。