一、学习目标
- 掌握实证分析的基本步骤
- 学习实证分析必要的stata代码
- 完成毕业论文
二、学习资料
《计量经济学及stata应用》课程教材,b站up主(@小周同学_慢慢学)小周老师讲得特别好,思路特别清晰,本篇为课程笔记记录,更多细节和内容希望大家移步b站听小周老师视频~
三、描述性统计
-
什么时候做描述性统计
数据处理好之后,每一次检验后都可以做描述性统计,让自己对数据基本情况有所了解。特别建议在数据处理好后,对解释变量x和被解释变量y做一次简单的线性回归,判断x和y的关系是否和理论预测的一致,以便及时发现问题。
给读者呈现的描述性统计结果建议在所有检验完成后做。
-
描述性统计的内容
(1)变量的样本数(n),平均值(mean),标准差(sd), 最大值(max),最小值(min), 中位数,25%分位数,75%分位数等。
(2)变量的相关性分析
-
描述性统计的stata代码
(1)tabstat
sys data #调用data数据
tabstat price emp pay #对price, emp, pay进行描述性统计
tabstat price emp pay, stat(n mean sd max min) #stat() 为可选择指令,可选样本数量,平均值,标准差,最大值,最小值进行描述性统计
tabstat price emp pay, stat(n mean sd max min) by(forgein) #可以根据forgein变量值将样本分类描述性统计
tabstat price emp pay, stat(n mean sd max min) by(forgein) nototal #去掉total统计量
tabstat price emp pay, stat(n mean sd max min) by(forgein) nototal col(stat) #改变结果呈现形式,按照forgein值分类统计,实现每一列为不同变量的统计值,每一行是某个变量的不同特征值
help tabstat #查找tabstat的各种指令
(2)summarize
sysuse data #调用data数据
summarize price emp pay #直接呈现price, emp, pay的样本数量、平均值、标准差、最大值、最小值
(3)tab
sys data #调用数据
tab region #统计不同行业各包含的样本数量,占比和占比累计
(4)correlation & pwcorr
区别:
correlation: 若某个样本的一个变量观测值有缺失值,则在统计中将该样本观测值整个删除
pwcorr:若某个样本的存在缺失值,但在统计中不会删除该样本
sysuse data #调用data
corr price emp pay #呈现price,emp,pay的相关系数并在统计中删去了有缺失值的样本
pwcorr price emp pay #呈现相关系数,且在统计中不删去有缺失值的样本
pwcorr price emp, sig #sig用于报告显著性
pwcorr price emp, sig star(0.01) #报告显著性且标星