文章目录
1.导入变量
1.1导入变量——使用data eidtor
1.1.1变量标准化
egen z2math = std(math)
1.2展示变量
1.2.1显示变量:describe
1.2.2展示具体变量:
list variable
基于逻辑关系:list q if q>=10000
1.2.3变量统计特征
全部变量显示:summarize
summarize q or su q
1.3更改变量类型
1.3.1变更字符串类型:destring self_rate, replace
destring date, ignore(" ") replace /*将变量“日期”转化为数值型变量,且移除空格。*/
list /*再次浏览数据*/
1.3.2字符串转日期:
format 变量名 %tdCCYY-NN-DD
1.3.3生成新变量:
generate logMT = log10(MT)
stata一般有generate 和replace两种方式生成新变量。 generate就是生成一个新的变量,replace就是用这个新的变量替换掉原来的变量。
2.计算回归
2.1计算一元、多元回归
regress errors subID timeDay timeDir timeOrder vCon W D
regress后面的第一个变量:errors 是要回归的目标,之后所有的变量都是模型中的predictors。
2.2逐步回归
逐步筛选法:stepwise y x1 x2 x3, fe(1.5) fs(1.5)
向前回归命令:sw reg y x1 x2 x3 x4, pe(.1)
向后回归命令:sw reg y x1 x2 x3 x4, pr(.1)
pr() pe() ##逐步后退法
pr() pe() forward ##逐步向前法
##为防止陷入死循环,pr()需略大于pe()
2.3选取训练集与测试集
egen id=seq()
reg y x if id<51
2.4展示拟合值及残差(样本内预测)
predict z
predict u, residual