今天主要来带大家重温一下数据管理,并提供了Stata和R语言的操作。 数据管理的重要性 一些初学者可能意识不到数据管理的重要性,认为数据到手,软件打开,就也可以死出模型,这种想法是大错特错的 没有任何一份数据是能拿到手就做模型分析的,必须经过数据清理 通常情况下无论多复杂的模型,他的命令也只会有一行,定量研究的工作基本全是在前期数据的清理。 例如:所有的数据库中都不会有年龄变量,都需要根据出生年生成 数据管理如何做?Stata&R 语言应用 1. 缺失值的处理(处理为系统可识别) 一般而言数据中的缺失值以负数或者一个极端不可能值替代,例如99999 等,但是软件并不认为负数或极端数是缺失值,需要处理成软件可识别的缺失值,如果不处理软件会带入计算 Stata :replace happy==. if happy==-8 R 语言:cgss$happy[cgss$happy == -8] ( 其中happy 为变量名) 2. 奇异值的识别:箱线图 一般在连续变量中奇异值存在的可能性比较大&#