变量名
由英文字符,数字和下划线组成,且数字不能作为开始字符,用户最好不要使用字符e作为变量名,因为这与指数表达式中的e难以区分
在stata中所有的变量名都可以使用变量名当中排列在前面的字符串来指代。
变量标签
当数据中的变量有标签之后,stata在给出的结果(包括表格和图形中),将使用变量标签,而非变量名。
变量的数值标签
给变量的各个取值(通常也是由数字表示的)添加的说明,一共包含两步,首先,定义一个标签,然后把这个标签附加在变量上。
数字格式数据的存储类型
所占空间 数位精确度
byte 1
byte 2
int 2
bytes 4
long 4
bytes 9
float 4 7
double 8 16
缺失数据
在stata中,缺失值的默认表示方法是一个.
对于缺失数值,缺失值可以被认为是无穷大,这一点异常重要;
对于字符缺失值,缺失值被当做是数字取值,因此,如果按照字母顺序,缺失值则排在所有字符取值之前。
变量排序
order move 命令
生成新变量与变量赋值
generate命令式生成新的变量 replace则是修改现有的变量的取值
recode命令式直接更改原有的变量,而generate和replace的组合则是保留原有变量,而生成一个新的变量;
使用算术运算来重新赋值
虚拟变量的生成
使用generate、replace与recode命令
针对类别变量使用tabulate命令
针对二分变量使用算术运算
使用快捷方法
数值变量与字符变量的转换
从字符变量到数值变量,使用encode
从数值变量到字符变量,decode命令
系统变量
_b 是指在最近模型估算之后得到的系数
_cons 是指最近模型估算之后得到的常数项
_n是指当前观察个案所对应的个案数
_N 是指整个数据中的观察个案数
_pi圆周率的数值
_se 是指模型估算之后得到的系数的标准误
_result是指当前的特定的Stata运算结果中的统计量
使用函数生成新的变量
generate与egen 都可以用函数来生成新的变量,后者是前者的扩展形式。
数据的选择
数据的选择是在内存中完成的,没有涉及到更改硬盘中原始的数据。
保留或值删除观察个案
保留或是删除变量