Stata常用变量及画图命令整理【继续补充】

最新推荐文章于 2025-03-19 16:03:43 发布

Sumeo_o

最新推荐文章于 2025-03-19 16:03:43 发布

阅读量5.7k

点赞数 13

分类专栏： Stata 文章标签：数据分析回归数据挖掘线性回归最小二乘法逻辑回归

本文链接：https://blog.csdn.net/Sumeo_o/article/details/134348836

版权

Stata 专栏收录该内容

5 篇文章

订阅专栏

本文介绍了Stata编程中的关键概念，包括变量管理（如命名、重命名、标签定义），基础数据分析命令（如描述性统计、直方图和分类），以及数据可视化（如散点图、线图）。还涵盖了运算符的使用和数据预处理技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、常见变量名称

sysuse调用系统
OBS 观测值/样本
mean 平均值
Std.Dev.  / SD 标准差
skewness  偏度
kurtosis  峰度
browse 浏览
histogram 直方图关于某一变量分布
variables 变量
df 自由度
Coef. ：分析出来的回归系数
Std. Err. ：分析出来回归系数的标准误差
＿n是常数 ＿N是样本量

二、常用基础命令

(一）关于变量的命令

1、生成（生成之前不存在的变量）

        gen/generate 新变量名
        注意：变量名由英文字母、数字以及下划线“_”组成，并且首字母必须为英文字母或者下划线“_”。
        否则将出现类似以下情形报错：
        注意：不建议变量以下划线“_”开头，因为stata内置变量格式为_variables，易混淆出错。

2、重命名

        1、rename old new //单一变量重命名（old指老变量名，new指新变量名，下同）
        2、rename (old1 old2...) (new1 new2 ...) //多个变量重命名
             renvars price age / p ag——批量重命名 renvars

        3、rename old1 old2 ..., upper //变量名转换成大写
        4、rename old1 old2 ...,lower //变量名转换成小写
        5、rename old1 old2 ...,proper //首字母大写，并且紧接着非字母字符后的字母大写，其他字母小写
            示例：
            rename foreign , upper
            rename DISPLACEMENT ,lower
            rename gear_ratio ,proper

3、标签

        label variable 变量名 标签名 //解释变量的含义。
        因为变量名大多是英文缩写，妨碍理解。
        示例：label variable rep “Repair Record 1978”

    变量 值标签
        1、label define 值标签名称 值标签内容——定义标签内容
        2、label value 变量名称 值标签名称——将变量值转换为对应的标签内容
            示例：
            label define repair78 1 "好" 2 "较好" 3 "中" 4 "较差” 5 "差"
            label values rep78 repair78

        3、label define 值标签名称 值标签内容，add —— 给扩充变量值增加值标签
        4、label define 值标签名称 值标签内容, modify ——修改原有变量值的值标签
        5、label drop _all ——删去所有变量的值标签
        6、label drop 指定值标签名称 —— 删去指定变量的值标签

    查看标签结果
        1、label list ——查看所有变量的变量标签（variable label）和变量值标签（value label）
        2、label list 指定变量 ——查看指定一至多个变量的变量标签（variable label）和变量值标签（value label）

4、删除/保留/替换

        drop & keep 删除 / 保留
        drop/keep 变量 ——删除变量
        drop/keep in range——删除所选范围内的观测值
        replace 生成新变量 （将原来的变量进行修改 替换）

5、储存类型

清楚变量的取值区间后设定数据存储的类型，可以降低Stata内存容量。

        ①整数的存储类型
            Byte，字节型，取值±100
            Int，一般整数型，取值±32000
            Long，长整数型，取值±2.14*10^10

        ②小数的存储类型
            Float，浮点型，8位有效数字，是Stata默认的存储类型
            Double，双精度，16位有效数字

        ③字符型变量
            str#，str20表示该变量最多包含20个字符
            1个汉字占2个字符

（二）关于数据的命令

   1、describe ——查看数据存储类型、格式、值标签、变量标签。导入数据后了解数据特征的关键一步。
   2、summarize 总计  /  sum  ——对所有变量进行描述性统计，均值方差
   3、su 变1 变2 —— 对特定变量进行描述性统计分析
   4、su 变1 变2,  detail ——【更详细的分析，如偏度/峰度 】
   5、sum 变量1 if 变量2 == 值标签的值 ——【在分类变量2的条件下，去统计变量1】
   6、format —— 设定变量类型 / 格式
        eg：format price %7.1fc // format gear %6.3f
   
   7、变量的显示格式——含义设置
     Stata中控制数据显示格式的代码形如%7.2f。
     它由以下元素组成：首先输入%，表明开始设定格式。
     接着可以选择性输入负号"-"和数字"0"，负号表示数据靠左列式，输入的数字0则会保留在开头。
     然后依次输入数字“w”、“.”和数字“d”，w表示显示格式的宽度，数字d表示小数点后保留的小数位数。
     再然后输入字母 e 或 f 或 g，用于标记具体格式，e 表示结果用科学计数法表示，f 表示固定格式，g表示通用设定，即Stata会自动设定显示格式。
     最后，可以选择性的输入字母c，将数据设置成有逗号的西方计数方法（多用于表示价格），即小数点之前每三位打一个逗号。

    8、 tabstat 生成数据统计表格
        tabstat price length, stats(mean min max)
        ｜ tabstat是输出描述性统计表格；stats是统计数据
        tabstat price length, stats(mean min max) by(foreign)——按照foreign变量分类描述price和length

    9、 list 列示命令
        list [varlist] [if] [in] [, options]  中括号里面的是选填项，list是必填
        eg 第一个可以选择你想列示的变量，如果什么都不写，就是默认列示所有变量
            第二个if是判断条件
            第三个in是范围条件
            list price in 2/10 ——列举第二个到第十个

        l下面有下划线，表明这个list 最简写的形式就是l，eg 【l make 】
        【*】通配符
            eg【list m*】就是把m开头的变量全部列示出来
            【list p*】就是把p开头的变量全部列示出来。
        如果想要列示从A到B的变量，不用一个个敲，输入【list 变量1-变量2】即可

    10、tabulate 列表统计or tab 绘制表格（一维or二维）// 累积分布函数
        tabulate 变量名 ——【频数分布 】
        tabulate  变量1  变量2 ——【二维频数分布表 】

（三）关于画图

    1、sort 排序【画图之前排序，否则如果是散点图，画出来就会是来来回回的情况】__升序
    2、gsort 降序排序（gsort —A， A为要排序变量）
    3、bysort 既分组又排序
    4、histogram 变1 —— 画变量1的直方图，Stata会自动根据变量的取值范围，设置相应的横纵坐标，非常方便。
        离散变量
            histogram 变1 ，discrete
        https://www.lianxh.cn/news/cf563fbedc5db.html（供参考）

    5、twoway（）——【二维画图命令，一个括号一个图层】
        twoway（scatter 变量1 变量2）
            scatter 散点图 俩变量
            scatter X Y， mlabel(变量名) 在散点图上做出标注
                “变量名”即为作为标注出现的变量

            如果要用 直线 去拟合 散点图，再加（lfit 变量1 变量2），相当于在前面散点图的图层上再画一个
            ｜ lfit : linear fit 拟合直线
            ｜ 跟下面这个命令，两者均可
            如果想在散点图上同时画出二次回归曲线,直接将 lfit改为qfit(二次拟合)，形状为曲线。
            ｜ qfit：曲线拟合
            如果还想分类进行比较，就加上【，by（分类变量）】

     6、line 直线图（需要sort 变量，即把解释变量排序）

（四）关于运算符

运算符 & 例子
一个 = 是赋值，两个 == 是等于 ，~= // != 是不等于