w9rtrt
原始数据的录入与数据库的建立调查数据通常需要通过计算机进行统计分析,而统计分析的基础工作就是将现场调查原始数据录入计算机并列成二维结构数据库。其中,每一行表示一个记录(record),或一个观察单位,调查对象(case);每一列代表一个变量(variable),用以表示调查变量、项目或观察指标等。
设计录入数据结构时要考虑不同软件对字节和字符的要求,例如有些统计软件不识别中文字符,有些软件要求变量的字符不超过8个字节,因此,在定义变量名称时应尽可能使用英文以便于在各软件之间转换运用。每项调查研究的资料最好录成一个总的数据文件,但在分析时也可按照分析计划和目的分设数据子集,同时注意所录入的数据格式应满足各种统计分析的需要,以便做出高效和准确的统计分析。
录入的数据文件类型可以是: ①数据库文件,如dBASE,FoxBASE,Lotus,EpiData,SQL等;Excel 文件。 ②文本文件,如Word文件、WPS文件等。 ③常见统计软件的数据文件,如SPSS数据文件,SAS数据文件、STATA数据文件等。 数据核查与离群数据的处理 ①数据核查 数据录入前,应核对所收集的原始资料是否符合原设计要求,有无重复或缺项,能否加以弥补; 在原始记录和机器贮存之间尽量减少抄录次数,以减少成本和差错。在数据录入后、资料整理和分析前,必须仔细核查,以确保数据的完整性和准确性,否则,无论多么娴熟高明的统计学家,无论多么先进的统计分析方法也无法弥补数据本身的缺陷。对人为造成的差错要及时纠正,否则只能剔除这此有差错的资料; 要特别注意检查相关变量编码的一致性,即进行逻辑性核查。数据的核查可采用人工检查和计算机检查。人工检查是指运用人们的专业知识或其他方面的知识对每份数据作全面检查。但当数据量很大时,要核查其中的全部内容单靠人工来完成几乎是不可能的。计算机检查可用现成的数据库管理软件(如EPI Data、FOXPRO等)和统计分析软件(如SAS,SPSS,Epi Info等)来完成,操作简便快捷。例如,某个数据文件将变量“性别”设定为1表示男,2表示女,当SAS或SPSS统计软件列出最大值为“6”或最小值为“0”时,必定有误;利用软件的查找功能还可立即找到问题数据,方便查找原始记录。又如Epi Data 的核查步骤可检查双份录入的数据文件的一致性,并报告不一致的结果,从而找出录人的错误所在。此外,调查者也可自行设计程序,在输入资料的同时自动核对资料;例如,规定输入异常的数值时,计算机立即拒绝。
②离群数据的处理与群体数据严重偏离的个别数据,称为离群数据(outlier)或极端数据(extreme value).统计软件一般都有判断离群数据的方法。
对离群数据要进行妥当和慎重处理。如果确认数据有逻辑错误,且原始记录亦如此,又无法纠正,可直接删除该数据。若数据尚无法判断出有明显的逻辑错误,则要慎重处理。如果将该数据剔除前后各做一次分析,且不出现相互矛盾的结果,则可不剔除该数据。
③数据缺失值的处理 在数据的核对过程中,应注意对缺失值(missing values)进行妥善处理。所谓缺失值是指有些变量的记录不完整或有缺失。对缺失值进行处理的前提条件是缺失值的比例不能太大,否则因为数据的不完整、质量不可靠而失去缺失值处理的实际意义。缺失值的替换
数据分析中缺失值填补的常见方法
在选择缺失值的处理方法时,要关注缺失的机制(类型)。当缺失纯系偶然,即属于完全随机缺失(MCAR),且缺失的比例不大时可以剔除有缺失值的整条记录,称为完全对象分析。这虽是最简单方便的做法,但终归会丢失信息。此外, 还可以用其他统计方法的运算结果来填补缺失值,如均数替代,最后观察值结转法,期望最大化、回归算法(regression)多重填补等。这些方法的运算过程均可在统计软件包中实现,如可采用SAS中的PROC MI和PROC MIANALYZE过程步完成多重填补法。
统计分析方法的选择 选择统计分析方法需考虑以下要素: 研究目的、设计类型、变量类型和数目、数据分布特征以及样本量 等.若要比较组间所感兴趣结局的差异,例如比较两种药物的治疗效果是否有差异,则采用假设检验(如t检验、卡方检验、方差分析等)方法;若要估计总体的重要参数,例如正常值范围或患病率等调查,则采用区间估计方法;若要分析变量之间的相互关系,则采用相关与回归分析;若要研究事件(如疾病)与危险因素的关联,则需要计算危险度(RR,OR等)。
不同设计类型需要采用相应的统计分析方法。例如,对于服从正态分布的定量变量,若系完全随机设计的两组比较,就要采用t检验,多组比较就要采用方差分析;若系配对设计,就要采用配对t检验。对于不服从正态分布的定量变量,则可采用非参数检验方法,如秩和检验,秩回归和秩相关等。若存在多个混杂因素,则可采用多重线性回归等方法加以控制。
阅读更多:样本均数比较最全总结
非参数检验最全总结
卡方检验最全总结
在设计和选择统计分析方法时,首先要考虑统计分析方法前提条件。例如,在两个独立样本比较t检验或多个独立样本比较的方差分析中,均要求方差齐性,因此需要做方差齐性检验;作两变量的线性相关分析,则要求双变量满足正态分布和具有线性特点,因此需作双变量的散点图和正态性检验。
阅读更多:
判断是否服从正态分布的几种方法
SPSS上的把非正态分布数据转换为正态分布数据