最近一阵子也是忙得飞起~没能及时更新内容望请谅解~
最近也是在学习很多关于建模的内容,所以我觉得还是有必要对这些内容做一下梳理~
这一篇文章作为开篇,也不打算写一些太过于深入的内容了,而是会讲一些框架性的东西,那些具体的花花叶叶后续再补上。
数据建模其实在很多领域都有应用的,而大体的流程和套路都是类似的,大致分为7 part内容。
part 1: 定义目标
这个很好理解,就不展开了。
part 2: 数据取样
数据采集前,我们都应该考虑几个问题:
有哪些数据源能用
如何保证取样数据的质量
数据在足够范围内容的代表性
数据样本取多少合适
如何分类(训练集,验证集,测试集)
抽取数据有几个标准,一是相关性,二是可靠性,三是最新性,需要时刻记得。当你从正在运行的系统中进行数据抽样,则更要注意数据的完整性和有效性。
part 3: 数据探索
这里的数据探索,其实是前面数据抽样的深入调查工作,需要搞清楚的是变量之间的相关性,独立性等,而当中,用到的分析方法包括:异常值分析,缺失值分析,相关分析,周期性分析,样本交叉验证等。
part 4: 数据预处理
这个是需要超级多时间的一个环节,当然也是非常重要的,主要包括以下内容:
1)数据筛选
筛选掉不想进入到样本的观测值。对于离散变量,可给定某一类的类值说明;对于连续变量,可指定相对应的范围。
2)数据变量转换
对某个字段数据进行某种转换操作,然后将转换后的值作为新的变量存放。而转换的目的是为了能够更好的拟合。常见的是取幂,对数,开方等。
3)缺失值处理
数据缺失是一个很复杂的问题。空置的存在主要影响有:
系统丢失大量有用信息
系统中所表现出的不确定性更加显著
包含空值的数据会使数据挖掘过程陷入混乱。
因此,数据缺失需要专门的方法取进行分析,推导以及处理。
4)坏数据处理
坏数据,即脏数据,需要进行处理,通常就是采用绝对均值法或莱茵达法进行处理。
5)数据标准化
标准化的目的就是为了消除变量之间的量纲关系(因为不同变量的单位不同),从而使得变量之间具有可比性。一般标准化采用的是Z标准化,0-1标准化等。
6)主成分分析
指的是用几个较少的综合指标来代替原先较多的指标,即在不影响整体信息反馈的基础上减少变量,就是我们常见的PCA啦。
7)属性选择
其实就是具体选择模型变量,毕竟一般建模的数据集都是有成百的属性的,有的对于结果是起主导作用而有的则是影响不大,为了提高算法运行的效率,所以我们会选择性地减少一些变量。
8)数据规约
把繁杂的样本数据信息进行数据规约,简化之后存储在数据表中,避免数据的不一致。
part 5: 模式发现
嗯,当你完成以上的操作之后,就可以进行建模啦,当然啦,你还要考虑这个是属于哪类问题(分类?聚类?关联规则?),应该选择哪种算法?最后,明确挖掘目标。
part 6: 模型构建
这里才是真正的核心环节,对于预测模型,构建一般包括模型建立,模型训练,模型验证以及模型预测4个步骤。
part 7: 模型评价
这里很好理解,就是要去评估你建立的模型的效果。
1)预测模型评估
预测模型对训练集进行预测而得到的准确率并不能很好反映模型在未来表现的好坏,我们需要一个没有参与模型搭建的数据,我们管这些做测试集。这是一种基于验证的评估方法,一般有保持法,随机二次抽样,自助法,交叉验证等。
对于模型预测效果,我们常用相对绝对误差,平均绝对误差,根均方差,相对平方根误差,kappa统计,反馈率,识别准确度等指标来衡量。
2)聚类模型评估
常用的评估指标有欧几里得距离法,皮尔逊相关系数,cosine相似度和tanimoto系数法。
以上,是比较简单的关于建模的基本步骤过程,后续看机会对里面的一些内容进行深挖学习~
”欢迎关注,嘻嘻~”