经过数据探索与数据预处理,得到了可以直接建模的数据。。根据挖掘目标和数据形式可以以建立分类与预测,聚类分析,关联规则,时序分析和偏差检测。
1.分类与预测
分类和预测是预测问题的两种主要类型,分类主要是预测分类标号,而预测主要是建立连续值函数模型,预测给定自变量对于的因变量模型。
-
1.1实现过程
(1)分类
分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将美股样本映射到预先定义好的类别。
(2)预测
预测是指建立两种或者两种以上变量间相互依赖的函数模型,然后进行预测或者控制。
(3)实现过程
分类算法有两步过程:第一步是学习步,通过归纳分析训练样本来建立分类模型得到分类规则;第二步是分类步,先用已知的测试样本集评估分类规则的准确率,如果准确率是