目前商业决策面临的最大挑战不是缺少数据,而是数据太多。大部分企业无法挖掘数据得价值给公司决策层提供支持,决策人员得困惑在于:以事海量数据无边无际,企业现有得信息系统无法高效地处理;二是数据混乱,根本找不到解决得办法。所以数据挖掘工作就更得不到领导得重视了。
20世纪90年代晚期发展的跨行业数据挖掘标准流程(CRISP-DM),这是对我们怎么去做数据挖掘的有效指导
第一,是商业理解,在我看来,这个商业理解就是要把业务问题转换成数据挖掘问题,目前数据挖掘的理论概念中,一般都包括分类,聚类,回归,关联规则这几类,这需要对这几类方法有一定的理解,才能有效地转换,
第二.数据理解,数据描述了我们的业务,在这一步,我们必须找准对应关系,所面临的业务问题,有哪些数据可以用,我们做的是定量分析,没有数据显然是得不到模型的,知道哪里数据和业务关系紧密,也能让我们的分析事半功倍,
第三.数据准备,实际上数据挖掘的大部分工作都在这一步,往往到了这一步就发现理想很美好,但现实很骨感,数据质量令人堪忧,缺失值,异常值接踵而来,这是数据的错误,还有为了适应算法,需要将数据去量纲化,类型转换,去相关性,降维等等操作,这一步将消耗分析人员大量精力
第四,建模,这一步需要对算法理解透彻,要了解数据特征和算法特点,才能选择最优算法,以及最优参数,很多算法的使用是有假设条件的,必须仔细掌握,得到的模型才会合理,另外,还要考虑业务需要,如果模型必须能解释,那就要选择生成式模型算法
第五,评价,就是模型评估了,各种评估指标的侧重点是不一样的,要以最能反应业务的指标为准,另外,评估数据的选择也很关键,要尽可能的模拟实际生产环境,才能评估模型的性能。
以上就是得到模型流程了,业务理解和数据理解做的好,就能快速选好方法,和关键字段,这是能加速建模的,数据质量是能否得到模型的关键,缺失值,异常值虽然能删除,填充,但是信息的缺失是找不回来的,就可能导致得不到模型,可能会倒逼选择其他方法分析,建模就要看对算法的理解了。
企业内部数据挖掘应以全方位为企业生产经营管理提供内外部信息为目标,其目标服务得对象是企业,具体包括企业得决策者、管理者、投资者、债权人、合作者、供应商和客户等。