z-score

最近处理数据时,经常用到Z-score处理方法,所以把自己了解到的知识汇集在此,对自己也是个提升,希望对别人也有所帮助。

(1)Z-score定义

     由于Z-score的数据分布满足“正态分布”(N(0,1)),而“正态分布”又被称为“Z-分布”,所以该方法被称为“Z-score”。

     Z-score是用于做数据规范化处理的一种方法。

     Z-score又称:零-均值规范化、standardscore、Z-value。

(2)Z-score公式

     Z-score的计算公式如下:

          (注:本图转载自wikipedia)
     其中x是原始数据,u是全部数据的均值,分母为标准方差。

(3)Z-score分布

     Z-score的分布如下图所示:


(注:本图转载自wikipedia)

(4)Z-score物理意义

     Z-score表示原始数据偏离均值的距离长短,而该距离度量的标准是标准方差。

     Z-score大于零表示该数据大于均值。

     Z-score小于零表示该数据小于均值。

     Z-score等于零表示该数据等于均值。

     Z-score等于“1”表示该数据比均值大一个标准方差。

     Z-score等于“-1”表示该数据比均值小一个标准方差。

     如果统计数据量足够多,Z-score数据分布满足,68%的数据分布在“-1”与“1”之间,95%的数据分布在“-2”与“2”之间,99%的数据分布在“-3”与“3之间”。可以通过此对你的数据做一定的验证。相见上面的Z-score数据分布图。

(5)Z-score应用

     Z-score可用于数据分布过于凌乱,无法判断最大值与最小值,或者数据中存在过多的奇异点,可以用Z-score方法对数据做规范化处理。

     其实Z-score也是一种数据归一化处理的一种方法。

 

 

转自:http://blog.sina.com.cn/s/blog_a89e19440101eeuo.html

 

本文参考如下链接:

http://en.wikipedia.org/wiki/Standard_score

http://stattrek.com/statistics/dictionary.aspx?definition=z_score

 

### 如何在 Stata 中计算 Z-Score Z-Score 是一种标准化方法,用于衡量某个观测值距离均值的标准差数。其基本公式如下: \[ Z = \frac{X - \mu}{\sigma} \] 其中 \( X \) 表示原始数据中的单个数值,\( \mu \) 表示样本或总体的平均值,而 \( \sigma \) 则表示标准差。 以下是具体实现方式以及注意事项: #### 方法一:手动计算 可以利用 `egen` 命令分别生成变量的均值和标准差,再通过简单运算得到 Z-Score。 ```stata * 计算某一变量 var 的 Z-Score egen mean_var = mean(var), by(groupvar) // 如果不需要按组计算,则去掉 by() 参数 egen sd_var = sd(var), by(groupvar) gen z_score = (var - mean_var) / sd_var drop mean_var sd_var // 清理中间变量 ``` 上述代码中,`mean()` 和 `sd()` 函数被用来创建临时变量存储每组内的均值与标准差[^3]。 #### 方法二:使用内置命令 `standardize` Stata 提供了一个更简洁的方式——调用外部 ado 文件来完成这一操作。如果尚未安装相关工具包,可以通过以下指令获取它: ```stata ssc install standardize, replace help standardize ``` 之后执行下面这行语句即可快速获得所需结果: ```stata standardize var, gen(zscored_var) ``` 这里会自动生成一个新的名为 `zscored_var` 的列作为原变量经过标准化处理后的版本[^4]。 需要注意的是,在实际应用过程中可能还会遇到一些特殊情况,比如缺失值处理等问题都需要额外关注并妥善解决。 --- #### 关于 T-Score 转换至 Z-Score 当提到从 T-Score 转化成 Z-Score 时,通常是因为两者都属于不同形式下的标准化得分体系。一般而言, \[ T = 50 + 10 * Z \] 因此反向推导得出对应的转换关系式应为: \[ Z=\left(T-50\right)/10 \][^1] --- #### 注意事项 对于面板数据分析场景下运用 DID(Difference In Differences)模型检验政策效果有效性期间发现存在不满足平行趋势假设情况的话,则需考虑引入权重调整机制或者其他替代方案加以修正[^2]。 ---
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值