机器学习之线性模型与决策树

最新推荐文章于 2023-08-15 21:53:49 发布

WihauShe

最新推荐文章于 2023-08-15 21:53:49 发布

阅读量1.1k

点赞数

分类专栏： ML 文章标签：机器学习线性模型决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39376697/article/details/109380726

版权

ML 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

线性模型

线性回归

最小二乘法：基于均方误差最小化进行模型求解的方法
对数线性回归：将输出标记的对数作为新型模型逼近的目标

对数几率回归

单位阶跃函数
对数几率函数

线性判别分析（LDA）

一种经典的线性学习方法，给定训练样例集，设法将样例集投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离，可根据新样本投影点的位置确定样本的类别

多分类学习

拆分策略：一对一、一对其余、多对多

类别不平衡问题

指分类任务中不同类别的训练样例数目差别很大的情况

解决方法：（1）直接对训练集里的反类样例进行欠采样（2）对训练集里的正类样例进行过采样（3）直接基于原始训练集进行学习

决策树

基本流程

一棵决策树包含一个根节点、若干个内部节点和若干个叶节点，叶节点对应于决策结果，其他每个节点则对应于一个属性测试，每个节点包含的样本集合根据属性测试的结果被划分到子节点中，根节点包含样本全集。

目的

产生一棵泛化能力强即处理未见示例能力强的决策树

策略

分而治之

返回情形

当前节点包含的样本全属于同一类别，无需划分
当前属性集为空，或是所有样本在所有属性上取值相同，无法划分
当前节点包含的样本集合为空，不能划分

划分选择

信息增益（信息熵）
增益率：对取值数目较少的属性有所偏好
基尼指数：值越小数据集纯度越高

剪枝处理

解决”过拟合“的主要手段

预剪枝：在决策树生成过程中，对每个节点划分前先进行估计，若当前节点的划分不能带来决策树泛化性能提升，则停止划分并将当前节点标记为叶节点

后剪枝：先从训练集生成一棵完整的决策树，然后自底向上地对非叶节点进行考察，若将该节点对应的子树替换为叶节点能带来决策树泛化性能提升，则将该子树替换为叶节点

后剪枝决策树的欠拟合风险很小，泛化性能优于预剪枝决策树，但其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多

连续与缺失值

连续值处理：二分法
缺失值处理：通过在某属性上没有缺失值的样本子集判断某属性优劣，样本在划分属性上取值未知则同时划入所有子节点

多变量决策树

决策树所形成的分类边界有一个明显的特点：轴平行

在多变量决策树的学习过程中，不是为每个非叶节点寻找一个最优划分属性，而是试图建立一个合适的线性分类器

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习之线性模型与决策树

线性模型线性回归最小二乘法：基于均方误差最小化进行模型求解的方法对数线性回归：将输出标记的对数作为新型模型逼近的目标对数几率回归单位阶跃函数对数几率函数线性判别分析（LDA）    一种经典的线性学习方法，给定训练样例集，设法将样例集投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离，可根据新样本投影点的位置确定样本的类别多分类学习    拆分策略：一对一、一对其余、多对多
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。