经济数据的分类
- 横截面数据:一个时间点多个个体的变量数据
- 时间序列数据:某个经济体在不同时间点的变量取值数据
- 面板数据:多个经济体在不同时点的上的数据。其中分为短面板和长面板,短面板指的是T较小,N较大;长面板指的是T较大,N较小。采用xtset N T 的时候,会显示数据是否是balance的,以及长短。
stata中一些基本操作
文件的操作
设置路径(这里可以直接复制电脑上的路径名称)
cd "C:\Users"
导入文件
use xyz.dta,clear
关闭文件
clear
数据的初步处理
字符型转变为数值型
destring varname, replace force
日期数据的处理(针对2001-06-06或2001/06/06这样的数据)
1、使用substr
函数”substr(s,n1,n2)”表示从字符串s的第n1个字节开始截取长度为n2的子字符串。
gen newvar = substr(varname,1,4)
2、运用date monthly yearly quarterly(YMD可依据数据的特征进行转变)
gen newvar=date(varname,"YMD")
可继续使用
format newvar %td
将显示31dec2015这种格式的数据,还有%tm、%tq等选项,即分别代表月份和季度
gen year=year(newvar)
gen month=month(newvar)
gen date=date(newvar)
gen mdy=mdy(month,date,year)
最后一步是为了演示当日期数据为单独显示的年月日时,可进行合并,结果显示为从1960年以来的天数
变量的标签
点击倒数第三个图标,即可快速进行标签的编辑
审视数据
单纯的显示数据的变量名、标签、数据类型
describe
陈列出某些变量的全部数据(一般都不使用),或者是查看n1-n2的数据,也可以用if进行条件筛选
list x y z
list x y z in n1/n2
考察数据的统计特征
显示样本容量、平均值、标准差、最大值、最小值
sum x y z
sum x y z if 约束条件
可进一步增加百分位数、方差、偏度、峰度
sum x y z,detail
经验累积分布函数(最多两个变量的联合分布)
tabulate x y
多个变量之间的相关性初步检验
pwcorr x y z,sig star(0.05)
画图(建议多使用help指令以探索更多,利用菜单Graphics)
直方图(组宽尽量用前面sum观察到的数据特征进行选取一个合适的数值)
width不写,则stata系统按照数据特征自行安排一个
histogram x,width(1000000)
核密度图
kdensity x
变量之间的散点图
scatter x y
可进一步,mlabel后接你希望显示每个点显示出的变量z,mlabpos表示你希望这个数值显示在几点钟方向
scatter x y,mlabel( z) mlabpos(12)
画出回归直线
线性拟合
twoway(scatter x y )(lfit x y)
二次拟合
twoway(scatter x y )(qfit x y)
两张图放在一起
graph combine graph1.gph graph2.gph
生成新变量
快速生成虚拟变量,括号内填相应的约束条件
gen newvar=(x>=1000)
为一个变量的多个值设置虚拟变量:生成的时候会产生newvar*
tabulate var,gen(newvar)
需要用到newvar的时候,可以简写
reg y x var1-varn
替换原有变量
replace newvar=新的生成条件即可
计算器功能
display
回归后的一些命令
查看估计系数的协方差矩阵
vce
计算新的y 的拟合值
predict ynewname
计算残差值
predict e1,r
检验系数之间的关系(包括和常数的相等关系、与其他系数的加减乘除均可)
在此处,变量名称即代表其相应的系数
test
进行联合检验
test (一个等式)(另一个等式)
约束回归
设置约束条件
constraint def cons的名字 设置的条件
回归
cnsreg y x z ,c(cons的名字)
STATA命令库的更新
安装应用
ssc install newcommand
有时候用上面的命令显示找不到的话,再用
findit
从findit的搜索结果中寻找自己想要的安装包再点击下载即可