最近在用stata处理数据,learning by doing,现将用过的命令整理如下,方便以后参阅:
查看统计特征
查看变量s的统计特征:
summarize s
如要显示变量s的经验累积分布函数(empirical cumulative distribution function):
tabulate s
分组对多变量进行描述性统计分析
tabstat X1 X2 X3 , statistics(mean sd) by(A)
显示变量a,b和c的相关系数:
pwcorr a b c,sig star(.05)
“sig”表示显示相关系数的显著性水平(即p值,列在相关系数的下方)
“star(.05)”表示给所有显著性水平小于或等于5%的相关系数打上星号。
生成、更改变量
重命名变量s为w:
rename s w
对变量s重新赋值:
replace s = ……
生成新变量s:
gen s = ……
用条件判断语句生成双分类虚拟变量:
gen d = (length>200)
当length>200取值为1,否则取值为0
基于变量make对每个取值生成一个虚拟变量
tab make,gen(m)
生成的虚拟变量为ÿ