1. 分类与预测
1.1 介绍与实现过程
- 分类和预测是预测问题两种主要类型
- 分类主要是预测分类标号(离散属性),构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别中。
- 预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值,是指即那里两种或两种以上变量间相互依赖的函数模型,然后进行预测和控制。
- 实现过程
- 第一步:学习,通过归纳分析训练样本集建立数据模型,得到相应规则
- 第二步:分类/预测:先用已知的测试样本评估准确性,通过检验后对未知数据进行预测
1.2 常用的分类与预测的算法
- 方法介绍
- 回归分析:是确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。包括:线性回归、非线性回归、logistics回归、岭回归、主成分回归、偏最小二乘回归等模型
- 决策树:采用自顶向下的递归方式,在内部节点进行属性比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类
- 人工神经网络:是一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络输入与输出变量之间关系的模型
- 贝叶斯网络:又被成为信度网络
- 支持向量机:是一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法
1.3 Logistic回归分析介绍
- Logistic回归的本质实际上是:假设数据服从这个分布,然后使用极大似然估计做参数估计
- 对于二分类问题,回归模型中只有1-0两种取值(如是和否、发生不发生)假设在p个独立自变量 x 1 x_1 x1、 x 2 x_2 x2、