正文
**调整变量格式:
format x1 %10.3f //将x1的列宽固定为10,小数点后取三位
format x1 %10.3g //将x1的列宽固定为10,有效数字取三位
format x1 %10.3e //将x1的列宽固定为10,采用科学计数法
format x1 %10.3fc //将x1的列宽固定为10,小数点后取三位,加入千分位分隔符
format x1 %10.3gc //将x1的列宽固定为10,有效数字取三位,加入千分位分隔符
format x1 %-10.3gc //将x1的列宽固定为10,有效数字取三位,加入千分位分隔符,加入“-”表示左对齐
**对样本进行随机筛选:
sample 50 //在观测案例中随机选取50%的样本,其余删除
sample 50,count //在观测案例中随机选取50个样本,其余删除
**查看与编辑数据:
browse x1 x2 if x3>3 //按所列变量与条件打开数据查看器
edit x1 x2 if x3>3 //按所列变量与条件打开数据编辑器
**简单统计量的计----------------------------------------------------------
ameans x //计算变量x的算术平均值、几何平均值和简单调和平均值,均显示样本量和置信区间
mean var1 [pweight = var2] //求取分组数据的平均值和标准误,var1为各组的赋值,var2为每组的频数
summarize y x1 x2,detail //可以获得各个变量的百分比数、最大最小值、样本量、平均数、标准差、方差、峰度、偏度
summarize var1 [aweight = var2], detail //求取分组数据的统计量,var1为各组的赋值,var2为每组的频数
tabstat X1,stats(mean n q max min sd var cv //计算变量X1的算术平均值、样本量、四分位线、最大最小值、标准差、方差和变异系数
**概率分布的计算:
**贝努利概率分布测试:
webuse quick
bitest quick==0.3,detail //假设每次得到成功案例‘1’的概率等于0.3,计算在变量quick所显示的二项分布情况下,各种累计概率和单个概率是多少
bitesti 10,3,0.5,detail //计算当每次成功的概率为0.5时,十次抽样中抽到三次成功案例的概率:低于或高于三次成功的累计概率和恰好三次成功概率
**泊松分布概率:
display poisson(7,6) //计算均值为7,成功案例小于等于6个的泊松概率
display poissonp(7,6) //计算均值为7,成功案例恰好等于6个的泊松概率
display poissontail(7,6) //计算均值为7,成功案例大于等于6个的泊松概率
**超几何分布概率:
display hypergeometricp(10,3,4,2) //计算在样本总量为10,成功案例为3的样本总体中,不重置地抽取4个样本,其中恰好有2个为成功案例的概率
display hypergeometric(10,3,4,2) //计算在样本总量为10,成功案例为3的样本总体中,不重置地抽取4个样本,其中有小于或等于2个为成功案例的概率
**检验极端值的步骤--------------------------------
**常见命令:tabulate、stem、codebook、summarize、list、histogram、graph box、gragh matrix
**第一步,用codebook、summarize、histogram、graph boxs、graph matrix、stem看检验数据的总体情况:
codebook y x1 x2
summarize y x1 x2,detail
histogram x1,norm //正态直方图
graph box x1 //箱图
graph matrix y x1 x2,half //画出各个变量的两两x-y图
stem x1 //做x1的茎叶图
**第二部,用tabulate、list细致寻找极端值
tabulate code if x1==极端值 //作出x1等于极端值时code的频数分布表,code表示地区、年份等序列变量,这样便可找出那些地区的数值出现了错误
list code if x1==极端值 //直接列出x1等于极端值时code的值,当x1的错误过多时,不建议使用该命令
list in -20/l //l表示last one,-20表示倒数第20个样本,该命令列出了从倒数第20个到倒数第一个样本的各变量值
**第三部,用replace命令替换极端值
replace x1=? if x1==极端值
keep if y<1000
drop if y>1000 //去除极端值
**数据排序-----------------------------------
sort x //对数据排序
gsort +x //对数据按x进行升序排列
gsort -x //对数据按x进行降序排列
gsort -x, generate(id) mfirst //对数据按x进行降序排列,缺失值排最前,生成反映位次的变量id
order y x3 x1 x2 //将变量按照y、x3、x1、x2的顺序排列
**生成新变量----------------------------------
gen logx1=log(x1) //得出x1的对数
gen x1=exp(logx1) //将logx1反对数化
gen r61_100=1 if rank>=61&rank<=100 //若rank在61与100之间,则新变量r61_100的取值为1,其他为缺失值
replace r61_100 if r61_100!=1 //“!=”表示不等于,若r61_100取值不为1,则将r61_100替换为0,就是将上式中的缺失值替换为0
gen abs(x) //取x的绝对值
gen ceil(x) //取大于或等于x的最小整数
gen trunc(x) //取