2数据预处理

一.了解数据
数据分为定性数据和定量数据。定性数据包括两个基本层次,即定序(ordinal)和名义(nominal)层次。定序变量指该变量只是对某些特性的“多少”进行排序,但是各个等级之间的差别不确定。名义变量则是指该变量只是测量某种特征的出现或者不出现。
每一个细致的数据分析者首先需要考查每个变量的关键特征,通过这个过程可以更好地感受数据,其中有两个特征需要特别关注,即集中趋势(central tendency)和离散程度(disperasion)。考查两个变量间的关系是了解数据十分重要的一步,有一系列方法可用于对变量间的相关性进行测量。关于数据本身的质量问题,需要数据分析者了解数据缺失情况、噪声及离群点等。
1.集中趋势
集中趋势的主要测度是均值、中位数和众数。对于定量数据,其均值、中位数和众数的度量都是有效的;对于定性数据,这3个指标所能提供的信息很少。对于定序变量,均值无意义,中位数和众数能反映一定的含义;对于名义变量,均值和中位数均无异议,仅有众数有一定的含义,但仍需注意,众数仅代表出现的特征出现最多,不能代表该特征占多数。其中,对于名义变量的二分变量,如果有合适的取值,均值就可以进行有意义的解释。
2.离散程度
考虑变量的离散情况主要考虑变量的差别如何,常见的测度有极差、方差和标准差,另外还有四分位距、平均差和变异系数等。对于定量数据而言,极差代表数据所处范围的大小,方差、标准差和平均差等代表数据相对均值的偏离情况,但是方差、标准差和平均差都是数值的绝对量,无法规避数值度量单位的影响。变异系数为了修正这个弊端,使用标准差除以均值得到的一个相对量来反映数据集的变异情况或者离散程度。对于定性数据,极差代表取值类别,相比定量数据,定性数据的极差所表达的含义很有限,其他的离散程度测量对于定性数据的含义不大,尤其是对于名义变量。
3.相关性测量
在进行真正的数据分析之前,可以通过一些简单的统计方法计算变量之间的相关性,这些方法包括:
1)数据可视化处理
将想要分析的变量绘制成折线图或者散点图,做图标相关分析,变量之间的趋势和联系就会清晰浮现。虽然没有对相关关系进行准确度量,但是可以对其有一个初步的探索和认识。
2)计算变量间的协方差
协方差可以确定相关关系的正与负

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值