数据挖掘与数据分析之统计知识篇

阴天了

已于 2023-06-28 15:51:21 修改

阅读量1.6k

点赞数

文章标签：数据挖掘数据分析统计学面试

于 2023-06-28 15:05:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sun_xiao_kai/article/details/131435754

版权

本文深入探讨了数据挖掘与数据分析中的统计学知识，包括自由度的概念、正态分布检验中的自由度问题、T检验的适用性、统计学P值的意义、显著性判断标准以及假设检验的步骤。文章还涵盖了正态分布、卡方检验的应用、辛普森悖论、协方差与相关系数的区别、AB测试中的统计显著性理解，并解释了中心极限定理、正态分布的直观解释以及在机器学习中假设检验的作用。通过这些核心概念的解析，帮助读者更好地理解和应用统计学在实际数据分析中的价值。

摘要由CSDN通过智能技术生成

1、自由度是什么？怎么确定？

统计学上，自由度是指当以样本的统计量估计总体的参数时，样本中独立或能自由变化的数据个数叫自由度。一般来说，自由度等于独立变量减掉其衍生量数。举例来说，变异数的定义是样本减平均值(一个由样本决定的衍生量)，因此对N个随机样本而言，其自由度为N-1。

通俗点说，一个班上有50个人，我们知道他们语文成绩平均分为80，现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩，但是最后一个人的你不能瞎说，因为平均分已经固定下来，自由度少一个。

2、正态分布检验自由度问题

在正态分布检验中，这里的M（三个统计量）为：N（总数）、平均数和标准差。

因为我们在做正态检验时，要使用到平均数和标准差以确定该正态分布形态，此外，要计算出各个区间的理论次数，我们还需要使用到N。

所以在正态分布检验中，自由度为K－3。

3、T检验

t检验适用于两个变量均数间的差异检验，多于两个变量间的均数比较要用方差分析。

无论哪种类型的t检验，都必须在满足特定的前提条件下: 正态性和方差齐性，应用才是合理的。这是因为必须在这样的前提下所计算出的t统计量才服从t分布，而t检验正是以t分布作为其理论依据的检验方法。

t检验是目前医学研究中使用频率最高，医学论文中最常见到的处理定量资料的假设检验方法。

4、统计学P值意义

结果的统计学意义是结果真实程度（能够代表总体）的一种估计方法。专业上，P值为结果可信程度的一个递减指标，P值越大，我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。

P值是将观察结果认为有效即具有总体代表性的犯错概率。如P=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联

我们重复类似实验，会发现约20个实验中有一个实验，我们所研究的变量关联将等于或强于我们的实验结果。（这并不是说如果变量间存在关联，我们可得到5%或95%次数的相同结果，当总体中的变量存在关联，重复研究和发现关联的可能性与设计的统计学效力有关。）

在许多研究领域，0.05的P值通常被认为是可接受错误的边界水平。

5、如何判定结果具有真实的显著性

在最后结论中判断什么样的显著性水平具有统计学意义，不可避免地带有武断性。换句话说，认为结果无效而被拒绝接受的水平的选择具有武断性。

实践中，最后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两比较，依赖于总体数据集里结论一致的支持性证据的数量，依赖于以往该研究领域的惯例。

通常，许多的科学领域中产生P值的结果≤0.05被认为是统计学意义的边界线，但是这显著性水平还包含了相当高的犯错可能性。结果 0.05≥P>0.01被认为是具有统计学

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘与数据分析之统计知识篇

数据挖掘、数据分析面试涉及到的统计学知识整理
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。