数据是一种宝贵的资产,在当今社会中起着至关重要的作用,因为一切都强烈依赖于数据。如今,所有技术都是数据驱动的,并且会定期生成大量数据。数据是数据科学家学会利用的未处理信息。数据科学家是分析数据源、清理和处理数据的专业人员,以了解数据创建的原因和方式,以便提供见解以支持业务选择,从而为公司带来利润。为了检测数据的模式和趋势,数据科学家混合使用统计公式和计算机算法。在这篇文章中,我们将仔细研究 P 值和 t-Score,以及如何从 Python 中的 t 分数中找到 P 值。
什么是 P 值?
在统计学中,p 值是生成结果的几率,其严重程度至少与统计假设检验的观测结果一样严重,前提是原假设有效。p 值用于代替否定点,以显示原假设被拒绝的最小显著性水平。p 值越低,表示支持备择假设的证据越多。
什么是 t 分数?
与 t 均值分布的标准差数与 t 得分(也称为 t 值)相同。在 t 检验和回归分析中,采用的检验统计量是 t 分数。当数据服从 t 分布时,它还可用于指示观测值与平均值的距离。
在 Python 中从 t 分数中计算出 P 值
Python 中的 scipy.stats.t.sf() 函数具有以下语法,它可以用来获取对应于给定 t-score 的 p 值 −scipy.stats.t.sf(abs(x), df)
其中 −
- x − t 分数
- df − 自由度
1. 左尾测试
假设我们希望获得左尾假设检验的 p 值,t 分数为 −0.77,df = 15。
例
!pip3 install scipy import scipy.stats #find p-value scipy.stats.t.sf(abs(-.77), df=15)
输出
0.2266283049085413
使用 0.2266 p 值。由于此 p 值不小于 0.05,如果我们应用显著性阈值 = 0.05,我们将无法否定假设检验的原假设。
2. 右尾测试
假设我们希望获得 t 分数为 1.87 且 df = 24 的右尾假设检验的 p 值。
例
import scipy.stats #find p-value scipy.stats.t.sf(abs(1.87), df=24)
输出
0.036865328383323424
0.0368 是 p 值。如果我们应用显著性阈值 = 0.05,则假设检验的原假设将被拒绝,因为此 p 值小于 0.05。
3. 双尾测试
假设我们希望获得 t 分数为 1.24 且 df = 22 的双尾假设检验的 p 值。
例
import scipy.stats #find p-value for two-tailed test scipy.stats.t.sf(abs(1.24), df=22)*2
输出
0.22803901531680093
0.2280 是 p 值。由于此 p 值不小于 0.05,如果我们应用显著性阈值 = 0.05,我们将无法否定假设检验的原假设。
结论
此处讨论了 P 值和 t 分数。这两者都用于统计,从数据中收集见解,并有助于更准确的预测。此外,使用 Python,我们可以从 t 分数计算 P 值。