线性模型
线性回归
- 最小二乘法:基于均方误差最小化进行模型求解的方法
- 对数线性回归:将输出标记的对数作为新型模型逼近的目标
对数几率回归
- 单位阶跃函数
- 对数几率函数
线性判别分析(LDA)
一种经典的线性学习方法,给定训练样例集,设法将样例集投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离,可根据新样本投影点的位置确定样本的类别
多分类学习
拆分策略:一对一、一对其余、多对多
类别不平衡问题
指分类任务中不同类别的训练样例数目差别很大的情况
解决方法:(1)直接对训练集里的反类样例进行欠采样(2)对训练集里的正类样例进行过采样(3)直接基于原始训练集进行学习
决策树
基本流程
一棵决策树包含一个根节点、若干个内部节点和若干个叶节点,叶节点对应于决策结果,其他每个节点则对应于一个属性测试,每个节点包含的样本集合根据属性测试的结果被划分到子节点中,根节点包含样本全集。
目的
产生一棵泛化能力强即处理未见示例能力强的决策树
策略
分而治之
返回情形
- 当前节点包含的样本全属于同一类别, 无需划分
- 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分
- 当前节点包含的样本集合为空,不能划分
划分选择
- 信息增益(信息熵)
- 增益率:对取值数目较少的属性有所偏好
- 基尼指数:值越小数据集纯度越高
剪枝处理
解决”过拟合“的主要手段
预剪枝:在决策树生成过程中,对每个节点划分前先进行估计,若当前节点的划分不能带来决策树泛化性能提升,则停止划分并将当前节点标记为叶节点
后剪枝:先从训练集生成一棵完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶节点
后剪枝决策树的欠拟合风险很小,泛化性能优于预剪枝决策树,但其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多
连续与缺失值
- 连续值处理:二分法
- 缺失值处理:通过在某属性上没有缺失值的样本子集判断某属性优劣,样本在划分属性上取值未知则同时划入所有子节点
多变量决策树
决策树所形成的分类边界有一个明显的特点:轴平行
在多变量决策树的学习过程中,不是为每个非叶节点寻找一个最优划分属性,而是试图建立一个合适的线性分类器