上讲实现了通过finebi对理财产品顾客的数据获取,这里将继续上讲,实现IBM对数据流的操作。
知识准备
数据挖掘技术包括关联分析、序列分析、分类、预测、聚类分析及时间序列分析等。
1.关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也
经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是
事件发生的概率和条件概率应该符合一定的统计意义。
2.序列分析
序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义,
3.分类分析
分类分析通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。
主要方法有基于统计学的贝叶斯方法、神经网络方法、决策树方法及支持向量机。
4.聚类分析
聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
5.预测
预测与分类类似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程,
而分类则只是用于判别样本所属的离散类别而已。预测常用的技术是回归分析。
6.时间序列
分析时间序列分析的是随时间而变化的事件序列,目的是预测未来发展趋势,或者寻找相似发展模式或者是发现周期性发展规律。