Stata记录

pass

补充

创建和替代变量

generate;replace

  generate利用现有变量生成一个新的变量

generate average = sumwage/people
gen lpeople = ln(people)

  replace利用现有变量生成一个新的变量替换原来的变量

replace sumwage = sumwage/people

分类与定序变量

  分类变量(虚拟变量)是通过定义值的方式对观测样本进行分类
对type生成新的分类变量

tabulate type,generate(type)

  定序变量是根据数据的数值大小将数据分到几个特定的区间
生成新的定序变量对number定序,分到三个标志区间

generate number1=autocode(number,3,1,25)

数据的长短转换与随机

reshape,encode,uniform

&esmp; 数据的长短变换

reshape longnumber,i(region)j(year)
reshape wide number,i(region)j(region)// 变回来
encode region,gen(regi) //把地区字符串变量转换成数值数据
clear //清楚原有数据
set obs 15 //设定一个包含15个样本的数据集
generate suiji = uniform() //生成一个随机变量,包含0-115个随机数据

数据子集

list

list 3 //列出第三条数据
list in1/3 //列出1-3条数据
sort shangjiao // 对变量进行排序
list year shangjiao shenjiao in 1/2 //列出变量值shangjioa最小的两条数据
list if year >2005
list if year > 2005 & shangjiao > 865
drop in 3 //删除第三条数据
drop if year==2005

画图

直方图

histogram

//x轴数值标签0-300,间距25,y轴数据标签0-10,间距1
histogram number,frequency title('')xlabel(0(25)300)ylabel(0(1)10)
//y轴添加刻度0-10,间距0.5;使第一个直方条从10开始,每一条宽度25
ytick(0(0.5)10)start(10)width(25)

散点图

scatter

igraph twoway scatter SG TZ,title('')xlabel(56(2)80)ylabel(150(10)190)ytick(150(5190))
msymbol(D)mcolor(yellow)
// 散点标志的形状 颜色

折线

line

graph twoway line total first year,title('')xlabel(1997(2)2012)ylabel(0(10)80)xtick(1997(1)2012)
legend(label(1,'')label(2,''))
clpattern(solid dash) //改变线的样式

散点折线

connected

graphy twoway connected number month,title('')xlabel(1(1)2)ylabel(1000(1000)7000)ytick(1000(500)7000)
clpattern(dash) msymbol(D)

箱图

box

graph box SCFE,over(center)

饼图

pie

graph pie CANYIN FANGCHAN ZHIZAO,pie(1,explode)pie(2,color(yellow))
plabel(1 percent,gap(20)),plabel(2 percent,gap(20)) by(region)

条形图

bar

graph bar sum number,over(team)title('')ylabel(1000(1000)7000)ytick(1000(500)7000)

点图

dot

graph dot man,wowan,over(name)title('')maker(1,msymbol(D))maker(2,msymbol(T))

描述性统计

定距变量

summarize

summarize cunsumption
summarize cunsumption,detail

  很具自己的需要获取相应的统计指标

summarize cunsumption,stats(mean range sum var)

  按另一变量分类列出某变量的统计指标

summarize cunsumption,stats(mean range sum var) by(region)

  创建变量总体均值的置信区间

ci means cunsumption,level(98)

正态性检验初步

sktest

sktest sum
generate srsum=sqrt(sum)
sktest srsum
generate lsum=ln(sum)
sktest lsum

ladder

尝试幂阶梯上的每一种幂次并逐个反馈结果正态性

ladder sum

gladder

在ladder基础上作图

gladder sum

单个分类变量分类汇总

tabulate

tabulate marry,plot

两个分类变量的列联表分析

tabulate smoke drink,column row

多表和多维列联表

tab1/2

tab1 account audit economy //对所有分类变量进行单个变量汇总统计
tab2 account audit economy//对所有分类变量进行二维列联表分析
by account,sort:tabulate audit economy //以是否accounts为主分类变量制作三个分类变量的三维列联表

table

多功能命令,可实现多种数据的频数,标准差数据特征的数据分析,如简单的频数猎镰分析

table account audit economy,contents(freq)

参数检验

单一样本T检验

  实现样本均值和总体均值的比较

ttest

ttest weight=67.4
ttest weight=67.4,level(99)

独立样本T检验

 实现两个独立样本的均值比较

ttest englishA=englishB,unpaired level(99)

ttest englishA=englishB,unpaired,level(99) unequal //异方差条件

配对样本T检验

  实现对成对数据的样本均值比较,两样本来自于同一总体,数据顺序不能调换

ttest qian=hou

单一样本方差的假设检验

sdtest

sdtest return=1

双样本方差的假设检验

  判断两个样本的波动情况

sdtest returnA=returnB

非参数检验

单样本正态分布检验

 本质上是一种拟合优度检验,检验样本特征是否服从正态分布

swilk,sktest

 分别是Wilks-Shapiro;偏度-峰度

两独立样本检验

 判断两独立样本是否来自相同分布的总体,通过分析两独立样本的均值,中位数,离散趋势,偏度等

ranksum

ranksum sum if year>1990,by(group)

两相关样本检验

 判断两相关样本是否来自相同分布的总体

signtest

signtest qian=hou

多独立样本检验

 判断多个独立的样本是否来自相同分布的总体

kwallis

kwallis   goal,by(school)

游程检验

 判断样本序列是否为随机序列

runtest

方差分析

单因素

oneway

oneway weight group,tabulate

多因素

anova

anova renew method time method # time
test method

协方差

anova nowsalary identity policy c,beforesalary
regress

重复变量

 考察测量指标是否会随测量次数的增加而变化

anova sale number plan,repeated(plan)

相关分析

线性相关

correlate

correlate month tem hour
//获得变量的方差-协方差矩阵
correlate month tem hour,covariance
// 获得相关性的显著性检验
correlate month tem hour,sig star(0.01)

偏相关

pcorr

pcoor YW SX IQ

降维

主成分分析

pac

correlate V2-V19
pca V2-V19

pca V2-V19,mineigen(1) //只保留特征大于1
pca V2-V19,components(1) // 限定提取主成分的个数

因子分析

factor

factor V2-V7,pcf // 使用主成分因子法进行因子分析
rotate // 对因子结构进行旋转
loadingplot,factor(2)yline(0)xline(0) // 绘制因子旋转后的因子载荷图
predict f1 f2 // 显示因子得分系数矩阵
list V1 f1 f2 // 估计因子分析后各个样本的因子得分情况
correlate f1 f2 // 展示提取的主因子和相关系数矩阵
scoreplot,mlabel(V1)yline(0)xline(0) // 展示每个样本的因子得分示意图
estat kmo // 显示KMO检验的结果
screeplot 绘制因子分析的碎石土
 

聚类

划分聚类分析

cluster,kmeans

egen zv2 = std(V2)
egen zv3 = std(V3)
egen zv4 = std(V4) // 标准化处理
sum zv2 zv3 zv4 // 描述性统计分析
cluster kmeans zv2 zv3 zv4,k(2) // 对这三个变量进行K个平均数的聚类分析,并将样本分为两类
cluster kmedians zv2 zv3 zv4,k(2)


cluster kmeans zv2 zv3 zv4,k(2) measure(L2squared)
cluster kmeans zv2 zv3 zv4,k(2) measure(L1) name(abcd) start(firstk) 
cluster kmeans zv2 zv3 zv4,k(2) measure(L1) name(abcd) start(firstk,exclude) 

层次聚类

...
vluster singlelinkage zv2....
cluster dendrogram
cluster generate type1=group(4)

最小二乘线性回归

简单线性回归分析

regress,vec

summarize year inflation unwork,detail // 对年份,通货膨胀率,失业率变量进行描述性统计分析
correlate year  inflation unwork
regress unwork inflation // 对年份,通货膨胀率,失业率变量进行简单的线性回归分析
vxe // 获得参与回归的各个自变量的系数以及常数项的方差-协方差矩阵
test inflation = 0 // 检验变量通货膨胀率的系数是否显著
predict yhat // 对因变量的拟合值进行预测
predict e,resid // 获得回归后的残差序列

  在回归方程中不包含常数项

regress unwork inflation ,cocon

  限定参与样本回归范围

regress unwork inflation if year >=2000

多元线性回归分析

summarize TC Q PL PF PK ,detail
correlate TC Q PL PF PK
regress TC Q PL PF PK  // 对总成本TC,产量Q,工资率PL,燃料价格PF,资本租凭价格PK进行多元线性回归分析
vce 
test Q PL PF PK // 检验参与回归的各自变量系数的联合显著性
predict yhat // 对因变量的拟合值进行预测
predict e,resid // 
regress TC Q PL PF
 

&emsp: 自动剔除不显著的变量

sw regress TC Q PL PF PK ,pr(0.05)

回归诊断与应对

异方差检验与应对

rvfplot,rvpplot

summarie V1 V2 V3 V4 V5,detail
correlate V1 V2 V3 V4 V5
regrss V1 V2 V3 V4 V5
vce // 得变量的方差-协方差矩阵
test V2 V3 V4 V5 // 检验回归分析获得的各个自变量系数的显著性
predict yhat
predict e,resid
rvfplot // 绘制残差与回归得到的拟合值的散点图,探索数据是否存在异方差
rvpplot V2 // 绘制残差与解释变量V2的散点图

estat imtest,white // 怀特检验,检验数据是否有存在异方差
estat hattest,iid // BP检验,使用得到的拟合值来检验数据是否存在异方差
estat hettest,rhs iid // BP检验,用方程右边的解释数据来检验方程是否存在异方差
estat hattest V2,rhs iid // BP检验,用指定的解释数据V2来检验变量是否存在异方差

regress V1 V2 V3 V4 V4 ,robust // 采用稳健的标准差对数据进行回归分析,克服数据的异方差对最小二乘回归分析造成的不利影响


reg V1-V5 // 以V1为因变量,V2,V3,V4,V4为自变量,进行最小二乘回归分析
predict e,resid 
gen ee=e^2 // 对残差数据进行平方变换,ee作为新的残差平方
gen lnee=log(ee) // 对数据进行对数变换,产生新变量lnee为上步得到残差平方的对数值

reg lnee V2,nocon // 以上步得到的残差平方对数值为因变量,以V2为自变量,且不包括常数项的最小二乘回归分析



非线性回归

Logistic回归

时间序列

面板数据

// 对四个变量所包含的样本数据一一进行展示
list year sale cost profit
// 因为面板数据要求其中的个体变量取值必须为整数且不允许重复,需对各个观测样本进行有序编号
// 将diqu这一字符串变量转化为数值型变量
encode diqu,gen(region)
// 对面板数据进行定义,横截面维度变量为上一步生成的region,时间序列变量为yrar
xtset region year
// 观察面板数据结构,考察面板数据特征
xtdes
// 显示面板数据组内,组间及整体的分布频率
xtsum
// 显示sale变量组内,组间及整体的分布频率
xttab sale
xttab cost
xttab profit
// 对每个个体显示sale变量的时间序列图
xtline sale
xtline cost
xtline profit
// 以profit为因变量,sale,cost为自变量,进行最小二乘回归分析
reg profit sale cost
// 以profit为因变量,sale,cost为自变量,并使用以region为聚类变量的聚类稳健标准差
// 进行最小二乘回归分析
reg profit sale cost,vce(cluster region)
// 以profit为因变量,sale,cost为自变量,并使用以region为聚类变量的聚类稳健标准差,
// 进行固定效应回归分析
xtreg profit sale cost,fe vce(cluster region)
// 以profit为因变量,sale,cost为自变量,进行固定效应回归分析
xtreg profit sale cost,fe
// 存储固定效应回归分析的估计结果
estimates store fe
// 通过构建最小二乘虚拟变量模型来分析固定效应模型是否由于最小二乘回归分析
xi:xtreg profit sale cost i.region,vce(cluster region)
// 创建年度变量的多个虚拟变量
tab year,gen(year)
// 通过构建双向固定效应模型来检验模型中是否应该包含时间效应
xtreg profit sale cost year2-year5,fe vce(cluster region)
// 在上一步回归基础上,通过测试各虚拟变量的系数联合显著性来检验是否应该在模型中纳入时间效应
test year2 year3 year4 year5
// 进行随机效应回归分析
xtreg profit sale cost,re vce(cluster region)
// 在上一步回归基础上,通过假设检验来判断随机效应模型是否优于最小二乘回归模型
xttest0
// 使用最大似然估计发=法,进行随机效应回归分析
xtreg profit sale cost,mle
// 使用组间估计量,进行组件估计量回归分析
xtreg profit sale cost,be









“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值