逻辑回归、决策树以及SVM小记

最新推荐文章于 2024-01-09 01:20:00 发布

酸辣椒炒青椒

最新推荐文章于 2024-01-09 01:20:00 发布

阅读量986

点赞数

本文链接：https://blog.csdn.net/studyorlearn/article/details/97646840

版权

逻辑回归和线性回归的异同：

逻辑回归是分类问题、线性回归是回归问题。逻辑回归是算出样本属于正样本的期望，然后根据期望做判定；线性回归是求出线性方程的近似解甚至解析解 $\theta^Tx$
逻辑回归的y是离散的，线性回归的y是连续的
逻辑回归最初对特征做线性组合时，类似于线性回归，sigmoid函数可以看着把数据压缩到区间[0,1]
逻辑回归可以整理为预测y为1的概率的对数几率的线性回归
都可以使用梯度下降方式求解
逻辑回归的代价函数是交叉熵，线性回归的是RMSE
逻辑回归具有平移不变性，即参数 $\theta$ 增加一个常数，不改变模型的结果

逻辑回归处理多标签分类任务

如果一个样本只属于有一个标签，则可以使用多项逻辑回归来处理。（多项逻辑回归是逻辑回归的一个推广，利用平移不变性可知二项逻辑回归等价于逻辑回归）
如果一个样本可能有多个标签，则训练k个二分类区，每个分类器分别把样本分类为0/1,然后k个分类结果的向量就是标签向量。

决策树

决策树就是一组if-then规则，这个规则是完备的
是一个概率模型
解释性强、符合很多商业决策过程的流程
不同的特征选择顺序、不同的特征取值都能构成不同的决策树，有的拟合能力强，有的泛化能力强。从所有决策树中选择最优的决策树是一个NP完全问题。通常通过启发式的方法来选择次最优解
辅助构造决策树的准则有：信息增益、信息增益比、Gini系数

信息增益（ID3模型）：
K个类别的的数据集D的经验熵如下： $H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}\log\frac{|C_k|}{|D|}$
特征A对于数据集D的经验熵如下： $H(D|A)=\sum_i^n\frac{|D_i|}{|D|}H(D_i)$ $D_i$ 为类别为A=i的数据集
信息增益： $g (D, A) = H (D) - H (D ∣ A)$
熵描述的是不确定性
信息增益比（C4.5模型）： $g_R((D,A))=\frac{g(D,A)}{H(D)}$
Gini系数（CART模型）：
描述数据的纯度 $Gini(D)=1-\sum_{k=1}^K(\frac{|C_k|}{|D|})^2$
对于特征A的Gini系数： $G(D,A)=\sum_i^n\frac{|D_i|}{|D|}Gini(D)$

对比三种准则及对应模型：

信息增益（对应ID3模型）倾向于取值多的特征（信息增益反应了经过特征A后的不确定性的减少程度，取值多，确定性大，条件熵变小，信息增益变大）
信息增益是绝对意义上的大小，通常我们可以通过反应相对大小的信息增益率弥补信息增益的缺陷。能在一定程度上避免过拟合。
ID3模型只能处理离散变量，C4.5和cart模型可以处理连续变量。C4.5处理方式：把特征排序，如果连续两个点的类别不同，则把他们的中点作为切分点，根据切分点把连续变量转换为离散变量。CART处理方式：cart树是二叉树，每次都会把数据二为两段，很方便转为为离散变量。
cart可以做回归问题，id3、c4.5只能用于分类问题
ID3不能处理缺失值，cart、c4.5可以处理缺失值
cart是二叉树，同一特征可能在层级间多次复用；id3、c4.5多叉树，同一特征不会在层级间复用
剪枝方式不同：cart是生成完全树，选择其中的子树来对比选择树；id3、c4.5通过从小到上剪枝来选择树