一、常见变量名称
sysuse调用系统
OBS 观测值/样本
mean 平均值
Std.Dev. / SD 标准差
skewness 偏度
kurtosis 峰度
browse 浏览
histogram 直方图关于某一变量分布
variables 变量
df 自由度
Coef. :分析出来的回归系数
Std. Err. :分析出来回归系数的标准误差
_n是常数 _N是样本量
二、常用基础命令
(一)关于变量的命令
1、生成(生成之前不存在的变量)
gen/generate 新变量名
注意:变量名由英文字母、数字以及下划线“_”组成,并且首字母必须为英文字母或者下划线“_”。
否则将出现类似以下情形报错:
注意:不建议变量以下划线“_”开头,因为stata内置变量格式为_variables,易混淆出错。
2、重命名
1、rename old new //单一变量重命名(old指老变量名,new指新变量名,下同)
2、rename (old1 old2...) (new1 new2 ...) //多个变量重命名
renvars price age / p ag——批量重命名 renvars
3、rename old1 old2 ..., upper //变量名转换成大写
4、rename old1 old2 ...,lower //变量名转换成小写
5、rename old1 old2 ...,proper //首字母大写,并且紧接着非字母字符后的字母大写,其他字母小写
示例:
rename foreign , upper
rename DISPLACEMENT ,lower
rename gear_ratio ,proper
3、标签
label variable 变量名 标签名 //解释变量的含义。
因为变量名大多是英文缩写,妨碍理解。
示例:label variable rep “Repair Record 1978”
变量 值标签
1、label define 值标签名称 值标签内容——定义标签内容
2、label value 变量名称 值标签名称——将变量值转换为对应的标签内容
示例:
label define repair78 1 "好" 2 "较好" 3 "中" 4 "较差” 5 "差"
label values rep78 repair78
3、label define 值标签名称 值标签内容,add —— 给扩充变量值增加值标签
4、label define 值标签名称 值标签内容, modify ——修改原有变量值的值标签
5、label drop _all ——删去所有变量的值标签
6、label drop 指定值标签名称 —— 删去指定变量的值标签
查看标签结果
1、label list ——查看所有变量的变量标签(variable label)和变量值标签(value label)
2、label list 指定变量 ——查看指定一至多个变量的变量标签(variable label)和变量值标签(value label)
4、删除/保留/替换
drop & keep 删除 / 保留
drop/keep 变量 ——删除变量
drop/keep in range——删除所选范围内的观测值
replace 生成新变量 (将原来的变量进行修改 替换)
5、储存类型
清楚变量的取值区间后设定数据存储的类型,可以降低Stata内存容量。
①整数的存储类型
Byte,字节型,取值±100
Int,一般整数型,取值±32000
Long,长整数型,取值±2.14*10^10
②小数的存储类型
Float,浮点型,8位有效数字,是Stata默认的存储类型
Double,双精度,16位有效数字
③字符型变量
str#,str20表示该变量最多包含20个字符
1个汉字占2个字符
(二)关于数据的命令
1、describe ——查看数据存储类型、格式、值标签、变量标签。导入数据后了解数据特征的关键一步。
2、summarize 总计 / sum ——对所有变量进行描述性统计,均值方差
3、su 变1 变2 —— 对特定变量进行描述性统计分析
4、su 变1 变2, detail ——【更详细的分析,如偏度/峰度 】
5、sum 变量1 if 变量2 == 值标签的值 ——【在分类变量2的条件下,去统计变量1】
6、format —— 设定变量类型 / 格式
eg:format price %7.1fc // format gear %6.3f
7、变量的显示格式——含义设置
Stata中控制数据显示格式的代码形如%7.2f。
它由以下元素组成:首先输入%,表明开始设定格式。
接着可以选择性输入负号"-"和数字"0",负号表示数据靠左列式,输入的数字0则会保留在开头。
然后依次输入数字“w”、“.”和数字“d”,w表示显示格式的宽度,数字d表示小数点后保留的小数位数。
再然后输入字母 e 或 f 或 g,用于标记具体格式,e 表示结果用科学计数法表示,f 表示固定格式,g表示通用设定,即Stata会自动设定显示格式。
最后,可以选择性的输入字母c,将数据设置成有逗号的西方计数方法(多用于表示价格),即小数点之前每三位打一个逗号。
8、 tabstat 生成数据统计表格
tabstat price length, stats(mean min max)
| tabstat是输出描述性统计表格;stats是统计数据
tabstat price length, stats(mean min max) by(foreign)——按照foreign变量分类描述price和length
9、 list 列示命令
list [varlist] [if] [in] [, options] 中括号里面的是选填项,list是必填
eg 第一个可以选择你想列示的变量,如果什么都不写,就是默认列示所有变量
第二个if是判断条件
第三个in是范围条件
list price in 2/10 ——列举第二个到第十个
l下面有下划线,表明这个list 最简写的形式就是l,eg 【l make 】
【*】通配符
eg【list m*】就是把m开头的变量全部列示出来
【list p*】就是把p开头的变量全部列示出来。
如果想要列示从A到B的变量,不用一个个敲,输入【list 变量1-变量2】即可
10、tabulate 列表统计or tab 绘制表格(一维or二维)// 累积分布函数
tabulate 变量名 ——【频数分布 】
tabulate 变量1 变量2 ——【二维频数分布表 】
(三)关于画图
1、sort 排序【画图之前排序,否则如果是散点图,画出来就会是来来回回的情况】__升序
2、gsort 降序排序(gsort —A, A为要排序变量)
3、bysort 既分组又排序
4、histogram 变1 —— 画变量1的直方图,Stata会自动根据变量的取值范围,设置相应的横纵坐标,非常方便。
离散变量
histogram 变1 ,discrete
https://www.lianxh.cn/news/cf563fbedc5db.html(供参考)
5、twoway()——【二维画图命令,一个括号一个图层】
twoway(scatter 变量1 变量2)
scatter 散点图 俩变量
scatter X Y, mlabel(变量名) 在散点图上做出标注
“变量名”即为作为标注出现的变量
如果要用 直线 去拟合 散点图,再加(lfit 变量1 变量2),相当于在前面散点图的图层上再画一个
| lfit : linear fit 拟合直线
| 跟下面这个命令,两者均可
如果想在散点图上同时画出二次回归曲线,直接将 lfit改为qfit(二次拟合),形状为曲线。
| qfit:曲线拟合
如果还想分类进行比较,就加上【,by(分类变量)】
6、line 直线图(需要sort 变量,即把解释变量排序)
(四)关于运算符
运算符 & 例子
一个 = 是赋值,两个 == 是等于 ,~= // != 是不等于