机器学习之线性模型与决策树

线性模型

线性回归

  • 最小二乘法:基于均方误差最小化进行模型求解的方法
  • 对数线性回归:将输出标记的对数作为新型模型逼近的目标

对数几率回归

  • 单位阶跃函数
  • 对数几率函数

线性判别分析(LDA)

    一种经典的线性学习方法,给定训练样例集,设法将样例集投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离,可根据新样本投影点的位置确定样本的类别

多分类学习

    拆分策略:一对一、一对其余、多对多

类别不平衡问题

指分类任务中不同类别的训练样例数目差别很大的情况

解决方法:(1)直接对训练集里的反类样例进行欠采样(2)对训练集里的正类样例进行过采样(3)直接基于原始训练集进行学习

决策树

基本流程

    一棵决策树包含一个根节点、若干个内部节点和若干个叶节点,叶节点对应于决策结果,其他每个节点则对应于一个属性测试,每个节点包含的样本集合根据属性测试的结果被划分到子节点中,根节点包含样本全集。

目的

    产生一棵泛化能力强即处理未见示例能力强的决策树

策略

    分而治之

返回情形

  1. 当前节点包含的样本全属于同一类别, 无需划分
  2. 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分
  3. 当前节点包含的样本集合为空,不能划分

划分选择

  • 信息增益(信息熵)
  • 增益率:对取值数目较少的属性有所偏好
  • 基尼指数:值越小数据集纯度越高

剪枝处理

解决”过拟合“的主要手段

预剪枝:在决策树生成过程中,对每个节点划分前先进行估计,若当前节点的划分不能带来决策树泛化性能提升,则停止划分并将当前节点标记为叶节点

后剪枝:先从训练集生成一棵完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶节点

后剪枝决策树的欠拟合风险很小,泛化性能优于预剪枝决策树,但其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多

连续与缺失值

  • 连续值处理:二分法
  • 缺失值处理:通过在某属性上没有缺失值的样本子集判断某属性优劣,样本在划分属性上取值未知则同时划入所有子节点

多变量决策树

决策树所形成的分类边界有一个明显的特点:轴平行

在多变量决策树的学习过程中,不是为每个非叶节点寻找一个最优划分属性,而是试图建立一个合适的线性分类器

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值