mtest命令_数据清洗, 管理和操作Stata命令汇编, 附上常用计量方法操作code!

正文

**调整变量格式:

format x1 %10.3f //将x1的列宽固定为10,小数点后取三位

format x1 %10.3g //将x1的列宽固定为10,有效数字取三位

format x1 %10.3e //将x1的列宽固定为10,采用科学计数法

format x1 %10.3fc //将x1的列宽固定为10,小数点后取三位,加入千分位分隔符

format x1 %10.3gc //将x1的列宽固定为10,有效数字取三位,加入千分位分隔符

format x1 %-10.3gc //将x1的列宽固定为10,有效数字取三位,加入千分位分隔符,加入“-”表示左对齐

**对样本进行随机筛选:

sample 50 //在观测案例中随机选取50%的样本,其余删除

sample 50,count //在观测案例中随机选取50个样本,其余删除

**查看与编辑数据:

browse x1 x2 if x3>3 //按所列变量与条件打开数据查看器

edit x1 x2 if x3>3 //按所列变量与条件打开数据编辑器

**简单统计量的计----------------------------------------------------------

ameans x //计算变量x的算术平均值、几何平均值和简单调和平均值,均显示样本量和置信区间

mean var1 [pweight = var2] //求取分组数据的平均值和标准误,var1为各组的赋值,var2为每组的频数

summarize y x1 x2,detail //可以获得各个变量的百分比数、最大最小值、样本量、平均数、标准差、方差、峰度、偏度

summarize var1 [aweight = var2], detail //求取分组数据的统计量,var1为各组的赋值,var2为每组的频数

tabstat X1,stats(mean n q max min sd var cv //计算变量X1的算术平均值、样本量、四分位线、最大最小值、标准差、方差和变异系数

**概率分布的计算:

**贝努利概率分布测试:

webuse quick

bitest quick==0.3,detail //假设每次得到成功案例‘1’的概率等于0.3,计算在变量quick所显示的二项分布情况下,各种累计概率和单个概率是多少

bitesti 10,3,0.5,detail //计算当每次成功的概率为0.5时,十次抽样中抽到三次成功案例的概率:低于或高于三次成功的累计概率和恰好三次成功概率

**泊松分布概率:

display poisson(7,6) //计算均值为7,成功案例小于等于6个的泊松概率

display poissonp(7,6) //计算均值为7,成功案例恰好等于6个的泊松概率

display poissontail(7,6) //计算均值为7,成功案例大于等于6个的泊松概率

**超几何分布概率:

display hypergeometricp(10,3,4,2) //计算在样本总量为10,成功案例为3的样本总体中,不重置地抽取4个样本,其中恰好有2个为成功案例的概率

display hypergeometric(10,3,4,2) //计算在样本总量为10,成功案例为3的样本总体中,不重置地抽取4个样本,其中有小于或等于2个为成功案例的概率

**检验极端值的步骤--------------------------------

**常见命令:tabulate、stem、codebook、summarize、list、histogram、graph box、gragh matrix

**第一步,用codebook、summarize、histogram、graph boxs、graph matrix、stem看检验数据的总体情况:

codebook y x1 x2

summarize y x1 x2,detail

histogram x1,norm //正态直方图

graph box x1 //箱图

graph matrix y x1 x2,half //画出各个变量的两两x-y图

stem x1 //做x1的茎叶图

**第二部,用tabulate、list细致寻找极端值

tabulate code if x1==极端值 //作出x1等于极端值时code的频数分布表,code表示地区、年份等序列变量,这样便可找出那些地区的数值出现了错误

list code if x1==极端值 //直接列出x1等于极端值时code的值,当x1的错误过多时,不建议使用该命令

list in -20/l //l表示last one,-20表示倒数第20个样本,该命令列出了从倒数第20个到倒数第一个样本的各变量值

**第三部,用replace命令替换极端值

replace x1=? if x1==极端值

keep if y<1000

drop if y>1000 //去除极端值

**数据排序-----------------------------------

sort x //对数据排序

gsort +x //对数据按x进行升序排列

gsort -x //对数据按x进行降序排列

gsort -x, generate(id) mfirst //对数据按x进行降序排列,缺失值排最前,生成反映位次的变量id

order y x3 x1 x2 //将变量按照y、x3、x1、x2的顺序排列

**生成新变量----------------------------------

gen logx1=log(x1) //得出x1的对数

gen x1=exp(logx1) //将logx1反对数化

gen r61_100=1 if rank>=61&rank<=100 //若rank在61与100之间,则新变量r61_100的取值为1,其他为缺失值

replace r61_100 if r61_100!=1 //“!=”表示不等于,若r61_100取值不为1,则将r61_100替换为0,就是将上式中的缺失值替换为0

gen abs(x) //取x的绝对值

gen ceil(x) //取大于或等于x的最小整数

gen trunc(x) //取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值