数据挖掘之数据预处理

一个数据挖掘项目,是一项庞大的工程。很多时候,我们都太在意使用什么算法、什么分析工具去得到好的一些隐含的模式或者规律,事实上关于数据的预处理,即根据业务需求,从不同的业务数据库中抽取不同的数据表,我们需要统计和整理字段,分析数据的缺失,了解各个表之间的关联关系,更要基于不同的业务场景,进行数据仓库的设计,其实这部分是最有价值的,但是却往往被忽视。一个项目中,预处理阶段所花的时间占到项目规划的一大半,反而是应用什么算法所花的时间最少。接下来就具体看看数据预处理阶段需要注意的问题。

数据预处理,需要对表结构进行统计,例如下图:

上图涉及到表名,字段,说明或者是字段描述,类型长度,以及是否为空。其中上述字段的描述作用毋庸置疑,包含数据和业务的理解,类型长度对于数据表的设计以及对字段可进行的SQL操作运算都非常重要。是否为空isNULL对于了解数据的缺失情况也是必不可少。

数据预处理,需要对表的数据情况有一个基本了解,例如下图:

包含数据样例,以及数据表的含义。数据样例,清晰给出了数据的呈现形式,以及都是些什么内容,能够更好的了解字段的含义,数据表的含义能够有助于理清多个数据表之间的关系。

数据预处理,需要制作基于业务的E-R图,例如下图:

上图比较粗糙,也就是说在我们对很多数据表有了基本的理解之后,这时我们就开始基于业务目标,去关联各个数据表,从而构建数据仓库。

至于数据挖掘算法,这里暂时不讨论,后续会详细的进行介绍。目前文章文字性的东西比较多,后续会多增加机器学习算法,原理数学公式以及一些实现的代码。敬请期待~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值