预测问题
任务描述
任务目标:
-
总体来说,分类问题与回归问题的目的是一致的,都是为了预测
-
根据预测目标不同,可以将预测问题分为以下三类
-
分类:
- 预测目标值无顺序意义且为有限个数离散量
- 预测目标值只有单纯的类别区别,各类之间的差距一致(只有相同和不同的差别)
-
回归:
- 预测目标值为有顺序意义的连续变量
- 取值范围为任意实数
-
序回归:
- 预测目标值为有顺序意义的有限个数离散变量
- 例如:评价(非常满意、满意、一般、不满意、非常不满意),这五种目标取值是离散量,但其间又有顺序关系
- 序回归问题一般通过回归方法而非分类方法
-
形式描述:
- 输入: X = [ x 1 , x 2 , . . . , x n ] X=[x_1,x_2,...,x_n] X=[x1,x2,...,xn], Y = [ y 1 , y 2 , . . . , y n ] T Y=[y_1,y_2,...,y_n]^T Y=[y1,y2,...,yn]T
- 给定:
- 模型:
- 一个函数(映射) Y ˉ = f ( X ) \bar{Y}=f(X) Yˉ=f(X),函数中存在一系列隐藏参数
- 优化目标是最小化预测结果 Y ˉ \bar{Y} Yˉ与 Y Y Y的差距
- 损失函数:
- 一个函数 L ( Y , Y ˉ ) L(Y,\bar{Y}) L(Y,Yˉ)
- 用于衡量预测结果 Y ˉ \bar{Y} Yˉ与 Y Y Y的差距
- 模型:
- 模型学习:
- 学习模型的过程,就是以最小化损失函数为目标,调整模型中隐藏参数的过程
- 在确定隐藏参数之后,即可得到确定的模型,该模型可以应用到未知数据集上进行预测
常用方法
-
分类方法:
- 逻辑回归
- SVM(分类器)
- 决策树(分类树)
-
回归方法:
- 线性回归
- SVM(回归方法)
- 决策树(回归树)
其他问题
- 线性分类&非线性分类
- 根据样本集中的样本点是否可以用d维空间中的一个超平面完美分开将分类问题分为线性分类与非线性分类两种
- 非线性分类问题可以使用以下几种方法处理:
- 维度变化
- 核方法:将原数据映射到更高维度上,使原来线性不可分的数据线性可分
- 降维方法:通过非线性降维方法,将高维不可分数据映射到低维可分空间中
- 分段线性分类器
- 将多个线性分类器组合,即空间中多个决策超平面组合成为非平面
- 神经网络方法
- 实际上类似与维度变换方法,通过多层网络对原数据集做非线性变换(类似于维度变化),再在最后一层使用线性分类器
- 与维度方法不同之处在于维度方法中降维与分类两步是割裂的,而神经网络方法的反向传播过程中将两步视作一个整体进行优化
- 维度变化