算法问题整理

最新推荐文章于 2022-06-26 16:06:07 发布

ypscut

最新推荐文章于 2022-06-26 16:06:07 发布

阅读量176

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/a096030098/article/details/81043469

版权

3 篇文章 0 订阅

订阅专栏

原理： svm是一种二分类模型，基本模型是在特征空间中寻找==间隔最大化==的分离超平面的线性分类器
- [x] 线性可分时
- [x] 近似线性可分时
- [x] 线性不可分时
利用间隔最大化求得最优分离超平面，解是唯一的，此时分隔超平面所产生的分类结果也是鲁棒性最好的，对未知实例的泛化能力也是最强的
为什么要将求解SVM 的原始问题转换为对偶问题了？
- [x] 对偶问题更容易求解，引进了kkt约束条件，减小了搜寻的范围，但是确使原始的优化问题变得复杂，为了使问题变得易于处理，我们把目标函数和约束全部融入拉格兰日函数中进行求解
- [x] 很自然的引入核函数，推广到非线性分类中
为什么svm要引入核函数？

当样本在原始空间线性不可分时，可将样本从原始空间映射到一个更高维的特征上，使得样本在这个特征空间内是线性可分的
svm 对缺失值比较敏感

没有处理缺失值的能力，svm希望样本在特征空间上线性可分，所以特征空间的好坏对svm很重要

逻辑回归假设数据服从伯努利分布，通过极大化似然函数，运用梯度下降来求解参数，来达到二分类的目的

逻辑回归的损失函数为什么要使用极大似然函数，不选平方损失函数了？

因为如果使用平方损失函数，你会发现梯度更新的速度和sigmod函数本身的梯度是相关的，然而sigmod函数梯度在定义域内的梯度都不大于0.25

介绍

gbdt 通过采用加法模型（基函数的线性组合），不断减小训练过程的残差来达到将数据分类或者回归的算法
训练过程 : 通过多轮迭代，每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练，弱分类器一般选择 cart 树
gbdt 怎样生成特征

逻辑回归本身适合处理线性可分的数据，如果我们想让逻辑回归处理非线性的数据，其中一种方式便是组合不同特征，增强逻辑回归对非线性分布的拟合能力