挖掘建模
经过数据探索与数据预处理,得到了可以直接建模的数据,根据挖掘目标和数据形式可以建立分类与预测,聚类分析,关联规则,时序模式和偏差检测等模型,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力
分类与预测
分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值
实现过程
(1)分类
分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别
其是属于有监督的学习
(2)预测
预测是指建立两种或者两种以上变量间相互依赖的函数模型,然后进行预测或者控制。
(3)实现过程
分类和预测的实现过程类似,以分类模型为例:分类算法有两步过程:第一步是学习步,通过归纳分析训练样本集来建立分类模型得到分类规则;第二步是分类步,先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集进行预测
常用的分类与预测算法
回归分析
回归分析是通过建立模型来研究变量间相互关系的密切程度,结构状态及进行模型预测的一种有效工具
在数据挖掘环境下,自变量与因变量具有相关关系,自变量是已知的,因变量是要预测的
算法描述等百度或者书上还算清楚,不再抄录
俩小时,百度加书上案例,搞懂了回归