pass
补充
创建和替代变量
generate;replace
generate利用现有变量生成一个新的变量
generate average = sumwage/people
gen lpeople = ln(people)
replace利用现有变量生成一个新的变量替换原来的变量
replace sumwage = sumwage/people
分类与定序变量
分类变量(虚拟变量)是通过定义值的方式对观测样本进行分类
对type生成新的分类变量
tabulate type,generate(type)
定序变量是根据数据的数值大小将数据分到几个特定的区间
生成新的定序变量对number定序,分到三个标志区间
generate number1=autocode(number,3,1,25)
数据的长短转换与随机
reshape,encode,uniform
&esmp; 数据的长短变换
reshape longnumber,i(region)j(year)
reshape wide number,i(region)j(region)// 变回来
encode region,gen(regi) //把地区字符串变量转换成数值数据
clear //清楚原有数据
set obs 15 //设定一个包含15个样本的数据集
generate suiji = uniform() //生成一个随机变量,包含0-1的15个随机数据
数据子集
list
list 3 //列出第三条数据
list in1/3 //列出1-3条数据
sort shangjiao // 对变量进行排序
list year shangjiao shenjiao in 1/2 //列出变量值shangjioa最小的两条数据
list if year >2005
list if year > 2005 & shangjiao > 865
drop in 3 //删除第三条数据
drop if year==2005
画图
直方图
histogram
//x轴数值标签0-300,间距25,y轴数据标签0-10,间距1
histogram number,frequency title('')xlabel(0(25)300)ylabel(0(1)10)
//y轴添加刻度0-10,间距0.5;使第一个直方条从10开始,每一条宽度25
ytick(0(0.5)10)start(10)width(25)
散点图
scatter
igraph twoway scatter SG TZ,title('')xlabel(56(2)80)ylabel(150(10)190)ytick(150(5190))
msymbol(D)mcolor(yellow)
// 散点标志的形状 颜色
折线
line
graph twoway line total first year,title('')xlabel(1997(2)2012)ylabel(0(10)80)xtick(1997(1)2012)
legend(label(1,'')label(2,''))
clpattern(solid dash) //改变线的样式
散点折线
connected
graphy twoway connected number month,title('')xlabel(1(1)2)ylabel(1000(1000)7000)ytick(1000(500)7000)
clpattern(dash) msymbol(D)
箱图
box
graph box SCFE,over(center)
饼图
pie
graph pie CANYIN FANGCHAN ZHIZAO,pie(1,explode)pie(2,color(yellow))
plabel(1 percent,gap(20)),plabel(2 percent,gap(20)) by(region)
条形图
bar
graph bar sum number,over(team)title('')ylabel(1000(1000)7000)ytick(1000(500)7000)
点图
dot
graph dot man,wowan,over(name)title('')maker(1,msymbol(D))maker(2,msymbol(T))
描述性统计
定距变量
summarize
summarize cunsumption
summarize cunsumption,detail
很具自己的需要获取相应的统计指标
summarize cunsumption,stats(mean range sum var)
按另一变量分类列出某变量的统计指标
summarize cunsumption,stats(mean range sum var) by(region)
创建变量总体均值的置信区间
ci means cunsumption,level(98)
正态性检验初步
sktest
sktest sum
generate srsum=sqrt(sum)
sktest srsum
generate lsum=ln(sum)
sktest lsum
ladder
尝试幂阶梯上的每一种幂次并逐个反馈结果正态性
ladder sum
gladder
在ladder基础上作图
gladder sum
单个分类变量分类汇总
tabulate
tabulate marry,plot
两个分类变量的列联表分析
tabulate smoke drink,column row
多表和多维列联表
tab1/2
tab1 account audit economy //对所有分类变量进行单个变量汇总统计
tab2 account audit economy//对所有分类变量进行二维列联表分析
by account,sort:tabulate audit economy //以是否accounts为主分类变量制作三个分类变量的三维列联表
table
多功能命令,可实现多种数据的频数,标准差数据特征的数据分析,如简单的频数猎镰分析
table account audit economy,contents(freq)
参数检验
单一样本T检验
实现样本均值和总体均值的比较
ttest
ttest weight=67.4
ttest weight=67.4,level(99)
独立样本T检验
实现两个独立样本的均值比较
ttest englishA=englishB,unpaired level(99)
ttest englishA=englishB,unpaired,level(99) unequal //异方差条件
配对样本T检验
实现对成对数据的样本均值比较,两样本来自于同一总体,数据顺序不能调换
ttest qian=hou
单一样本方差的假设检验
sdtest
sdtest return=1
双样本方差的假设检验
判断两个样本的波动情况
sdtest returnA=returnB
非参数检验
单样本正态分布检验
本质上是一种拟合优度检验,检验样本特征是否服从正态分布
swilk,sktest
分别是Wilks-Shapiro;偏度-峰度
两独立样本检验
判断两独立样本是否来自相同分布的总体,通过分析两独立样本的均值,中位数,离散趋势,偏度等
ranksum
ranksum sum if year>1990,by(group)
两相关样本检验
判断两相关样本是否来自相同分布的总体
signtest
signtest qian=hou
多独立样本检验
判断多个独立的样本是否来自相同分布的总体
kwallis
kwallis goal,by(school)
游程检验
判断样本序列是否为随机序列
runtest
方差分析
单因素
oneway
oneway weight group,tabulate
多因素
anova
anova renew method time method # time
test method
协方差
anova nowsalary identity policy c,beforesalary
regress
重复变量
考察测量指标是否会随测量次数的增加而变化
anova sale number plan,repeated(plan)
相关分析
线性相关
correlate
correlate month tem hour
//获得变量的方差-协方差矩阵
correlate month tem hour,covariance
// 获得相关性的显著性检验
correlate month tem hour,sig star(0.01)
偏相关
pcorr
pcoor YW SX IQ
降维
主成分分析
pac
correlate V2-V19
pca V2-V19
pca V2-V19,mineigen(1) //只保留特征大于1
pca V2-V19,components(1) // 限定提取主成分的个数
因子分析
factor
factor V2-V7,pcf // 使用主成分因子法进行因子分析
rotate // 对因子结构进行旋转
loadingplot,factor(2)yline(0)xline(0) // 绘制因子旋转后的因子载荷图
predict f1 f2 // 显示因子得分系数矩阵
list V1 f1 f2 // 估计因子分析后各个样本的因子得分情况
correlate f1 f2 // 展示提取的主因子和相关系数矩阵
scoreplot,mlabel(V1)yline(0)xline(0) // 展示每个样本的因子得分示意图
estat kmo // 显示KMO检验的结果
screeplot 绘制因子分析的碎石土
聚类
划分聚类分析
cluster,kmeans
egen zv2 = std(V2)
egen zv3 = std(V3)
egen zv4 = std(V4) // 标准化处理
sum zv2 zv3 zv4 // 描述性统计分析
cluster kmeans zv2 zv3 zv4,k(2) // 对这三个变量进行K个平均数的聚类分析,并将样本分为两类
cluster kmedians zv2 zv3 zv4,k(2)
cluster kmeans zv2 zv3 zv4,k(2) measure(L2squared)
cluster kmeans zv2 zv3 zv4,k(2) measure(L1) name(abcd) start(firstk)
cluster kmeans zv2 zv3 zv4,k(2) measure(L1) name(abcd) start(firstk,exclude)
层次聚类
...
vluster singlelinkage zv2....
cluster dendrogram
cluster generate type1=group(4)
最小二乘线性回归
简单线性回归分析
regress,vec
summarize year inflation unwork,detail // 对年份,通货膨胀率,失业率变量进行描述性统计分析
correlate year inflation unwork
regress unwork inflation // 对年份,通货膨胀率,失业率变量进行简单的线性回归分析
vxe // 获得参与回归的各个自变量的系数以及常数项的方差-协方差矩阵
test inflation = 0 // 检验变量通货膨胀率的系数是否显著
predict yhat // 对因变量的拟合值进行预测
predict e,resid // 获得回归后的残差序列
在回归方程中不包含常数项
regress unwork inflation ,cocon
限定参与样本回归范围
regress unwork inflation if year >=2000
多元线性回归分析
summarize TC Q PL PF PK ,detail
correlate TC Q PL PF PK
regress TC Q PL PF PK // 对总成本TC,产量Q,工资率PL,燃料价格PF,资本租凭价格PK进行多元线性回归分析
vce
test Q PL PF PK // 检验参与回归的各自变量系数的联合显著性
predict yhat // 对因变量的拟合值进行预测
predict e,resid //
regress TC Q PL PF
&emsp: 自动剔除不显著的变量
sw regress TC Q PL PF PK ,pr(0.05)
回归诊断与应对
异方差检验与应对
rvfplot,rvpplot
summarie V1 V2 V3 V4 V5,detail
correlate V1 V2 V3 V4 V5
regrss V1 V2 V3 V4 V5
vce // 得变量的方差-协方差矩阵
test V2 V3 V4 V5 // 检验回归分析获得的各个自变量系数的显著性
predict yhat
predict e,resid
rvfplot // 绘制残差与回归得到的拟合值的散点图,探索数据是否存在异方差
rvpplot V2 // 绘制残差与解释变量V2的散点图
estat imtest,white // 怀特检验,检验数据是否有存在异方差
estat hattest,iid // BP检验,使用得到的拟合值来检验数据是否存在异方差
estat hettest,rhs iid // BP检验,用方程右边的解释数据来检验方程是否存在异方差
estat hattest V2,rhs iid // BP检验,用指定的解释数据V2来检验变量是否存在异方差
regress V1 V2 V3 V4 V4 ,robust // 采用稳健的标准差对数据进行回归分析,克服数据的异方差对最小二乘回归分析造成的不利影响
reg V1-V5 // 以V1为因变量,V2,V3,V4,V4为自变量,进行最小二乘回归分析
predict e,resid
gen ee=e^2 // 对残差数据进行平方变换,ee作为新的残差平方
gen lnee=log(ee) // 对数据进行对数变换,产生新变量lnee为上步得到残差平方的对数值
reg lnee V2,nocon // 以上步得到的残差平方对数值为因变量,以V2为自变量,且不包括常数项的最小二乘回归分析
非线性回归
Logistic回归
时间序列
面板数据
// 对四个变量所包含的样本数据一一进行展示
list year sale cost profit
// 因为面板数据要求其中的个体变量取值必须为整数且不允许重复,需对各个观测样本进行有序编号
// 将diqu这一字符串变量转化为数值型变量
encode diqu,gen(region)
// 对面板数据进行定义,横截面维度变量为上一步生成的region,时间序列变量为yrar
xtset region year
// 观察面板数据结构,考察面板数据特征
xtdes
// 显示面板数据组内,组间及整体的分布频率
xtsum
// 显示sale变量组内,组间及整体的分布频率
xttab sale
xttab cost
xttab profit
// 对每个个体显示sale变量的时间序列图
xtline sale
xtline cost
xtline profit
// 以profit为因变量,sale,cost为自变量,进行最小二乘回归分析
reg profit sale cost
// 以profit为因变量,sale,cost为自变量,并使用以region为聚类变量的聚类稳健标准差
// 进行最小二乘回归分析
reg profit sale cost,vce(cluster region)
// 以profit为因变量,sale,cost为自变量,并使用以region为聚类变量的聚类稳健标准差,
// 进行固定效应回归分析
xtreg profit sale cost,fe vce(cluster region)
// 以profit为因变量,sale,cost为自变量,进行固定效应回归分析
xtreg profit sale cost,fe
// 存储固定效应回归分析的估计结果
estimates store fe
// 通过构建最小二乘虚拟变量模型来分析固定效应模型是否由于最小二乘回归分析
xi:xtreg profit sale cost i.region,vce(cluster region)
// 创建年度变量的多个虚拟变量
tab year,gen(year)
// 通过构建双向固定效应模型来检验模型中是否应该包含时间效应
xtreg profit sale cost year2-year5,fe vce(cluster region)
// 在上一步回归基础上,通过测试各虚拟变量的系数联合显著性来检验是否应该在模型中纳入时间效应
test year2 year3 year4 year5
// 进行随机效应回归分析
xtreg profit sale cost,re vce(cluster region)
// 在上一步回归基础上,通过假设检验来判断随机效应模型是否优于最小二乘回归模型
xttest0
// 使用最大似然估计发=法,进行随机效应回归分析
xtreg profit sale cost,mle
// 使用组间估计量,进行组件估计量回归分析
xtreg profit sale cost,be