数据理解

因为数据通常分散在不同的部门,以不同的格式或者不同的载体存储,所属的数据库架构不一致,所以收集数据和转换数据格式需要花费大量的时间。收集到数据之后,我们需要刻画各个数据流的特征,理解它们之间的关系。

一、数据粒度

数据粒度指的是数据的详细程度,如数据是精确到分钟、小时、日、周、月、季度还是年。例如,对于信用卡的数据,每张卡每次消费都会有一次记录;但是对于财务报表而言,每年只有一次记录。通常对于数据挖掘而言,数据粒度越细越好。

二、数据的精确含义

我们需要理解每一个数据流及每一个变量最初收集的目的及其精确含义。

例如,在业务系统中客户可能被定义为和企业有过各种联系的人,而在财务系统中客户可能被定义为实际与企业进行过交易的人。

三、变量类型

变量按其测量尺度可分为四类:

1.名义变量

只对观测进行分类并给各类别标以名称,类别之间没有顺序;如性别、职业、邮编等。

2.定序变量

对观测进行分类但类别之间存在有意义的排序;例如,人们对某种产品的满意程度可分为很满意、比较满意、一般、不满意、很不满意。

3.定距变量

不仅变量取值存在有意义的排序,而且变量取值之间的差有意义;例如,20摄氏度的气温比10摄氏度的气温高出10摄氏度。但是,定距变量取值之间的商没有意义,例如,不能说20摄氏度的气温是10摄氏度的气温的两倍。

4.定比变量

不仅变量取值之间的差有意义,而且存在一个有实际意义的零点,所以变量取值之间的商也有意义。例如,既可以说10000元收入比5000元收入高出5000元,也可以说前者是后者的两倍。

名义变量和定序变量合起来称作分类变量或离散变量,定距变量和定比变量合起来称作数值变量或连续变量。

四、冗余变量

有些变量对于所有观测而言取值都相同,显然是冗余变量;还有些变量合起来含有重复信息,也形成冗余。例如,“出生日期”和“年龄”,或者“单价”、“购买数量”和“总价”形成冗余变量,因为用填写日期减去出生日期就得到年龄,用单价乘以购买数量就得到总价。这些冗余变量会给建模过程带来不稳定性,例如,多重共线性就会给线性回归建模带来困难。

五、完整性

我们需要检查数据值是否都正确,这是一项很复杂的工作。

1.取值范围

每个变量都有允许的取值范围,取值范围之外的值为错误取值。例如,信用卡每次消费的金额应该不为零,如果数据中发现某条消费记录的金额为零,那么这条记录取值错误;再如,由于串行等原因导致某些记录的人名一栏中出现数值,或者应该出现数值的变量中出现了字符,这都是取值错误。有时,一个变量的取值范围是由另一个变量的取值决定的。例如,只有顾客使用过某种产品,才能对该产品的满意度进行评价,否则该满意度应为缺失。通常,通过简单的描述统计就可以发现错误取值。

2.取值的一致性

例如,“北京大学”和“北大”指的都是北京大学,但在数据中却表现为两种取值。

3.异常值

有些异常值是超出常规边界的值,需要查验是否错误。例如,在填写个人月收入时,要求填写单位为万元,如果有人把填写单位看成元,就可能出现月收入为几亿的异常情形。但有些异常值却是正确的。例如,保险数据中异常值可能代表巨额索赔要求,而该高额索赔是由于某地区发生飓风造成的,是正确值。

4.整体完整性

有些观测各变量的取值单个看起来可能都是正确的,但整体看起来却不正确,因此需要从整体上考察数据。例如,如果一个企业的财务报表中大部分资产或负债项都是几十万元,但某一负债项却达到几十亿元,就需要仔细考察是否填写错误。

六、缺省值

我们需要关注各变量的缺省取值。例如,在顾客满意度调查中,满意度得分为1、2、3、4、5,对于缺失的情况缺省地用9来表示。如果我们不知道9代表缺省值,而直接对满意度进行建模,会出现很大的谬误,因为模型把9当作比5更满意,但实际上具有缺省值9的顾客可能并不关心被调查的产品。

七、关键字

需要确认一些关键字将各数据流的观测联系起来,从而可以实现多个数据流的合并,构造建模数据集。例如,一个超市有很多拥有会员卡的顾客,超市的数据库中可能有三个数据集:

数据集1描述在每次购物中顾客购买商品的情况,关键字为购物票号、商品号,也记录会员卡号(因为不是所有顾客都拥有会员卡,所以有些购物记录中没有会员卡号);

数据集2描述商品的情况,关键字为商品号;

数据集3描述会员的情况,关键字为会员卡号。

使用会员卡号和商品号可以把三个数据集连接起来,帮助我们获取会员顾客在某时段内所购买商品的详细信息。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值