【非参数统计】概念及方法归纳比较(超适合期末复习)

非参数统计是什么?

在许多实际问题中,数据的分布形态和数据之间的关系常常是不能任意假定的。探索性问题 研究中,往往对总体信息知之甚少。有时,数据并不是来自所假定分布的总体。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计。

非参数统计的优点

对总体假定较少,有广泛的适用性,结果稳定性较好:

  1. 假定较少 。

  2. 不需要对总体参数的假定 。

  3. 与参数结果接近。

非参数统计的弱点

  1. 可能会浪费一些信息,特别当数据可以使用参数模型的时候。

  2. 大样本手算相当麻烦。

  3. 一些表不易得到 。

Pearson相关系数的局限性

  1. 两个变量间的线性相关。

  2. 两个变量的所属总体呈正态分布。

  3. 两个变量是连续变量。

  4. 样本量大于 30 。

  5. 异常值的影响。

Pearson相关系数与Spearman相关系数的比较

  1. 斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格。

  2. 只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料。

  3. 不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。

  4. 异常值的秩次通常不会有明显的变化。

Kendall τ相关检验概念与领域

肯德尔相关性系数,又称肯德尔秩相关系数,也是一种秩相关系数,不过它所计算的对象是分类变量,分类变量可以分为

  1. 无序的,比如性别(男、女)、血型(A、B、O、AB)

  2. 有序的,比如肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)

相关性系数:有序分类变量

McNemar检验适用范围

MeNemar检验严格意义上来说并不适用于一致性检验,而是有倾向性的,因为对于不一致有贡献的只有对角线上的元素,于是它只运用非主对角线单元格上的信息,即它只关心两者
不一致的评价情况,用于比较两个评价者间存在怎样的倾向。因此,对于一致性较好的大样本数据,MeNemar检验可能会失去实用价值。例如对 1 万个案例进行一致性评价, 9995 个都是完全一致的,在主对角线上,另有 5 个分布在左下的三角区,显然,此时一致性相当的好。但如果使用McNemar检验,此时反而会得出两种评价有差异的结论 。
一致性检验则没有倾向性

OLS回归的缺点

  1. 对异常值特别敏感。

  2. 是均值回归 ,E(ylx)只是刻画条件分布ylx集中趋势的指标,而我们关心x对整个条
    件分布yl x的影响。

  3. 假设严格 ,误差项条件均值为零,且方差独立同分布,即ylx服从渐进正态分布;如
    果ylx不是对称分布,则E(ylx)很难反映条件分布的全貌。

普通最小二乘法和分位数回归的区别

普通最小二乘法 是利用因变量的条件均值来建模,通过使残差平方和达到最小来获得回归参数的估计。

分位数回归 则利用因变量的条件分位数来建模,通过最小化加权的残差绝对值之和来估计回归参数。它可以称之为“加权的最小一乘回归法”。

分位数回归相比于普通最小二乘估计的优点

当数据出现尖峰或厚尾的分布、存在显著的异方差等情况,最小二乘法估计将不再具有优良性质,且稳健性非常差。分位数回归系数估计比OLS估计更稳健。最小二乘估计假定解释变量只能影响被解释变量的条件分布的均值位置,不能影响其分布的刻度或形状的任何其他方面。而分位数回归估计能精确地描述解释变量对于被解释变量的变化范围以及条件分布形状的影响。

普通最小二乘法和中位数回归的区别

对于之前的 OLS 来说,就是使得残差平方和最小,即损失函数为平方损失函数,此为最小二乘回归;
而 中位数回归 的损失函数为绝对值损失函数,则称为最小一乘回归,使得残差绝对值的救最小;

Kappa一致性检验和配对卡方检验对比

  1. Kappa检验旨在评价两种方法是否存在一致性配对x2检验主要确定两种方法诊断结果是否有差别。
  2. Kappa检验会利用列联表的全部数据配对x2检验只利用“不一致“数据。
  3. Kappa检验可计算Kappa值用于评价一致性大小,配对x2检验只给出两种方法差别是否具有统计学意义的判断。

Ridit检验总结

总的来说 :一个是分组变量,一个是顺序变量。

参照组的选择 :

两组比较:

  1. 一组例数明显多于另一组,该组做参照组传统方法做参照组。
  2. 两组没有明显区别,合计后做参照组。

多组比较:

  1. 某一组例数特别多于其他组,该组做参照组否则,各组例数合计作为参照组。

⚫ 如果等级是从优到劣的顺序,则平均Ridit值越小越好。
⚫ 如果等级是从劣到优的顺序,则平均Ridit值越大越好。
⚫ 不能单纯平均Ridi值判别各组差异,必须利用置信区间或统计检验进行判断。

直方图密度估计原理与特点

直方圈的特点是 简单易懂
缺点 :

  1. 密度函数是不平滑的;
  2. 密度函数受子区间(即每个直方体)宽度影响很大同样的原始数据如果取不同的子区间范围,那么展示的结果可能是完全不同的。
    直方图的技巧在于 确定组距和组数,组数过多或过少都会淹没主要特征。采用不同的 核函数 都可以获得一致性的结论(整体趋势和密度分布规律性基本一致),
    但核密度函数也不是完美的,除了核算法的选择外, 带宽(bandwidth)也会影响密度估计 ,过大或过小的带宽值都会影响估计结果。

直方图密度估计原理与特点

核密度估计是在概率论中用来估计未知的密度函数属于非参数检验方法之一,又名Parzen窗。所谓核密度估计,就是采用平滑的峰值函数(“核”)来拟合观察到的数据点,从而
对真实的概率分布曲线进行模拟,核密度估计在估计边界区域的时候会出现 边界效应。

多项式回归

1. Nadaraya-Watson核回归:
1 ) 基本思路: 估计点x处y的取值,按照距离x的远近对样本观测值𝑦𝑖加权即可
2 ) 优点: 实现了局部加权
3 ) 缺点: 加权的权重在局部邻域内是常量,由于加权是基于整个样本点的,因此在边
界往往估计不理想。如果内部数据分布不均匀,那些恰好位于高密度附近的内点的
核回归也会存在较大的偏差。
2. 局部线性回归:
1 ) 基本思路: 用一个变动的函数取代局部固定的权值,最直接的做法是在待估点x的
邻域内用一个线性函数𝑌𝑖=𝑎(𝑥)+𝑏(𝑥)𝑋𝑖 ,𝑋𝑖∈[𝑥−ℎ,𝑥+ℎ]取代𝑌𝑖的平均值,其
中a(x)和b(x)是两个局部参数。
2 ) 优点: 与真实函数相比较,局部线性回归较好的克服了边界的偏差
3 ) 缺点: 在曲线导函数符号改变的附近仍然存在偏差,又由于导函数改变的点通常为
极值点,因而呈现出过高或过低的点均被平滑掉的效果。
3. 一般的局部多项式回归:
1 ) 基本思想: 局部p阶多项式回归为最小化p阶多项式,利用带宽、核函数和倒数
估计加权最小二乘问题(p250)
2 ) 缺点: 异常点可能造成线性回归模型最小二乘估计发生偏差
4. LOWESS稳健回归
1 ) 基本思想: 目的是改进局部线性拟合方法来降低异常点对估计结果的影响。先用局
部线性回归进行拟合,然后定义稳健权数并进行平滑,由于稳健权数可将异常值排
除在外,并且初始残差偏大(小)的观测值在下一次局部线性回归中的权数就更小
(大),重复运算几次之后就可以消除异常值的影响,得到稳健的回归。

样条回归

  1. 基本思想: 使用多段平滑曲线对样本数据进行拟合,并保证这些曲线的接口处也是平滑
    的,即两侧曲线在接口处的拟合值和导数均一致。常用的平滑曲线有B样条曲线和自然
    样条曲线。
  2. 通俗理解: 样条回归,可以看做是一个逐段回归或分段回归,通俗点说,就是把数据分
    为几段,在每一段内分别拟合模型,每一段内可以拟合直线、二次项、三次项等,根据实际情况而定 。
    3. B-spline样条基函数
    B样条曲线是由若干个最高幂相同的多项式曲线组成的。要求连接处光滑。
    缺点: 在x取值的两端,往往预测的方差会非常大,也就是95%的可信区间非常宽
    4. 自然样条基函数
    自然样条曲线是一个带有约束条件的三次样条曲线。
    两者差异
    样条曲线回归和多项式回归的差别就在于,它可以通过增加自由度或节点来实现分段回归并
    保持接口处平滑。
  • 4
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python数据分析期末复习归纳如下: 1. Python基础知识:掌握Python语言的基本语法、数据类型、运算符、流程控制语句等基本知识点,包括变量、列表、字典、字符串等。 2. Numpy库:了解Numpy库的基本使用方法,包括数组的创建、索引、切片、运算等,以及矩阵的操作、随机数生成、统计分析等。 3. Pandas库:掌握Pandas库的常用数据结构Dataframe和Series的创建、索引、切片、合并、统计分析等基本操作,以及数据清洗、缺失值处理、数据分组、透视表等高级操作。 4. Matplotlib库:掌握Matplotlib库的基本绘图方法,包括线性图、散点图、柱状图、饼图等,以及子图、标签、图例等高级绘图操作。 5. Seaborn库:了解Seaborn库的常用绘图方法,包括分布图、分类图、热力图等,以及调色板、样式等高级绘图操作。 6. Scikit-learn库:掌握Scikit-learn库的常用机器学习算法,包括分类、回归、聚类等,以及模型选择、模型评估等高级操作。 7. 数据挖掘流程:了解数据挖掘的基本流程,包括数据采集、数据清洗、特征提取、建模、模型评估等,以及在Python中的实现方法。 8. 数据可视化:掌握数据可视化的基本方法和原则,包括选择合适的图形、调整图形参数、添加标签等。 9. 数据分析实践:通过实际案例进行数据分析实践,熟悉数据分析过程中的一些常见问题和解决方法。 以上就是Python数据分析期末复习归纳

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值