线性回归&决策树分类器学习笔记

最新推荐文章于 2023-12-31 01:39:14 发布

北极星~

最新推荐文章于 2023-12-31 01:39:14 发布

阅读量1.2k

点赞数 1

分类专栏：数据可视化文章标签：决策树 python 机器学习人工智能

本文链接：https://blog.csdn.net/Ghost__l/article/details/107164881

版权

数据可视化专栏收录该内容

2 篇文章 0 订阅

订阅专栏

线性回归&决策树分类器学习笔记

回归

回归(Regression)这一概念最早由英国生物统计学家高尔顿和他的学生皮尔逊在研究父母亲和子女的身高遗传特性时提出，即“子女的身高趋向于高于父母的身高的平均值，但一般不会超过父母的身高”

回归分析

在统计学中，回归分析（regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少，分为二元回归和多元回归分析；按照因变量的多少，可分为简单回归分析和多重回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

回归模型理论

模型

一元线性回归模型为 $\omega_0+\omega_1x+\varepsilon$ ，其中 $\omega_0$ 和 $\omega_1$ 是回归系数，反应了两变量之间的关系趋势，即该直线的截距和斜率； $\varepsilon$ 是随机误差项或“噪声”项，代表数据中不能被模型拟合的部分，通常假设误差独立于 $x$ ，并且 $\varepsilon \sim N(0,\sigma^2)$ 则 $y\sim N(\omega_0+\omega_1x,\sigma^2)$ .对于参数 $\omega_0 ，\omega_1， \sigma$ 的估计通常有两种方法，极大似然估计(MLE)和最小二乘估计(LSE).

对于数据集 $D=\{(x_1,y_1),...,(x_n,y_n)\}$ 我们的目的为找到一条直线 $\omega_0+\omega_1x$ 使得所有样本点尽可能的落在直线附近。根据极大似然估计方法，选取欧氏距离，则优化目标为
$\min _{\left(w_{0}, w_{1}\right)} \sum_{i=1}^{n}\left(y_{i}-w_{1} x_{i}-w_{0}\right)^{2}$

将该优化目标记作 $L(\omega_0,\omega_1)=\sum_{i=1}^{n}(y_i-\omega_1x_i-\omega_0)^2$ ,因为 $L(\omega_0,\omega_1)$ 为二次凸函数，可以令各偏导数为零：
$\left\{\begin{array}{l} \frac{\partial L \left( w _{1}, w _{0}\right)}{\partial w _{1}}=2 \sum_{i=1}^{n}\left(y_{i}- w _{1} x_{i}- w _{0}\right)\left(-x_{i}\right)=0 \\ \frac{\partial L \left( w _{1}, w _{0}\right)}{\partial w _{0}}=2 \sum_{i=1}^{n}\left(y_{i}- w _{1} x_{i}- w _{0}\right)(-1)=0 \end{array}\right.$
解上述方程组可得
$\left\{\begin{array}{l} w_{1}=\frac{n \sum_{i=1}^{n} y_{i} x_{i}-\left(\sum_{i=1}^{n} y_{i}\right)\left(\sum_{i=1}^{n} x_{i}\right)}{n \sum_{i=1}^{n} x_{i}^{2}-\left(\sum_{i=1}^{n} x_{i}\right)^{2}} \\ w_{0}=\frac{\sum_{i=1}^{n} y_{i}}{n}-\frac{\sum_{i=1}^{n} x_{i}}{n} w _{1} \end{array}\right.$

名称		描述	公式
$S S E$	残差平方和	拟合值与实际值差的平方和	$\sum_{i=1}^{n}\left(\hat{y}_{i}-{y_i}\right)^{2}$
$S S R$	回归平方和	预测数据与原始数据均值之差的平方和	$\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}$
$S S T$	总离差平方和	原始数据和均值之差的平方和	$\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}$
$R^2$	决定系数	表征自变量对因变量的解释能力（范围 $[0, 1]$ ）	$\frac{SSR}{SST}=1-\frac{SSE}{SST}$

多元线性回归

与一元线性回归不同的是， $y$ 是多个特征的线性组合
$\omega_0+\omega_1x_1+\omega_2x_3+...+\omega_dx_d$
训练集为 $D={(x_1,y_1),...(x_n,y_n)}$ $x_i$ 为 $d$ 维特征向量 $x_i=(x_{11},x_{12},\cdot\cdot \cdot,x_{1d})^T$ ,优化目标为残差平方和 $S S R$ ，矩阵表示为 $L(w)=SSR=(\hat y-y)^T(\hat y - y)=(Xw-y)^T(Xw-y)$ 即使得残差平方和最小已达到最优拟合程度。在几何上理解为寻找一个超平面，使得训练集中样本到超平面的误差平方和最小。

线性回归的问题

过渡拟合的问题：当模型的变量过多时，线性回归可能会出现过度拟合问题

多重共线性问题：变量之间相关性很强导致 $X^TX$ 近似奇异，参数估计 $\hat\omega=(X^TX)^{-1}X^Ty$ 不准确，进而过度拟合现象。

解决方法：正则化、主成分分析、偏最小二乘回归

正则化:

加入正则项， $(X\omega-y)^T(X\omega-y)+\lambda||\omega||_q^q$ , $||\omega||_q$ 表示 $\omega$ 的 $q$ 范数。当取定不同的范数，得到不同的正则化方法。 $q = 2$ ：岭回归(Ridge)， $q = 1$ ：LASSO。

岭回归(Ridge)和LASSO可以理解为将原本的无约束优化变成带约束优化，两者区别为约束区域的不同。

![岭回归 LASSO对比](https://img-blog.csdnimg.cn/20200707143029946.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dob3N0X19s,size_16,color_FFFFFF,t_70) ### 线性回归模型代码实现

## 线性回归
def linear_regression(X,y):
    w = np.zeros_like(X.shape[1])
    if np.linalg.det(X.T.dot(X)) != 0 : ##判断 X^T·X 是否奇异
        w = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)  ## $\Omega$ 表达式
    return w

## 岭回归
def ridge_regression(X,y,ridge_lambda):
    penality_matrix = np.eye(X.shape[1])
    penality_matrix[X.shape[1] - 1][X.shape[1] - 1] = 0
    w = np.linalg.inv(X.T.dot(X)+ridge_lambda*penality_matrix).dot(X.T).dot(y)
    return w

sklearn 中的 linear_model 模块实现了常见的线性模型，包括线性回归、岭回归和 LASSO 等。对应的算法和类名如下表所示。

算法	类名
线性回归	`linear_model.LinearRegression`
岭回归	`linear_model.Ridge`
LASSO	`linear_model.Lasso`

线性回归模型假设与诊断

序号	假设	图形法	统计方法
1	线性回归假设	残差图（残差与拟合值）	-
2	误差项同方差	学生化残差图	Modified Levene检验 Breusch-Pagan Test检验
3	误差项相互独立	残差图（残差与观测）	Durbin-Watson检验（时间 Moran I指数（空间）
4	误差项正态分布	残差Q-Q图	正态性检验
5	无离群点、强影响点	学生化残差与杠杆值图、Cook’s D图	学生化残差、杠杆值 Cook’s D统计量

探索性可视化分析

将数据集读取为Pandas的DataFrame的格式例如 data = pandas.read_csv("./input/data.csv");

然后 data.head()预览数据，默认显示5行；

通过 data.shape 查看数据集中样本数量和特征数量；

通过 seaborn 中的 countplot or distplot 函数绘制条形图或者直方图观察特征取值分布情况；

通过 pairplot 定性的查看各个特征之间的线性相关性，或者计算特征相关系数矩阵然后热力图定量可视化线性相关性 data.corr() sns.heatmap()

模型实现及评价；

决策树

决策树举例：

决策树算法

决策树是一种基于树形结构的算法，内部节点表示一个特征，叶节点表示一个类，决策树等价于队空间的方块划分。

决策树的生成

ID3算法：

离散型特征，信息熵（信息增益）为不纯度度量，分割的子节点数量 $K\geq 2$ ,目标特征类型为离散型。

ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树．具体方法是，从根结点(root node)开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止．最后得到一个决策树ID3相当千用极大似然法进行概率模型的选择．

ID3算法

输入：训练数据集D, 特征集A , 阙值e,
输出：决策树T.

(I) 若 $D$ 中所有实例属千同一类 $C_k$ , 则 $T$ 为单结点树，井将类 $C_k$ ，作为该结点的类标记，返回 $T$ ;

(2)若 $A=\empty$ , 则 $T$ 为单结点树，井将 $D$ 中实例数最大的类 $C$ , 作为该结点的类标记，返回 $T$ ；

(3)否则，按信息增益算法计算 $A$ 中各特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_g$ ；

(4)如果 $A_g$ 的信息增益小于阈值 $\varepsilon$ , 则置 $T$ 为单结点树，并将 $D$ 中实例数呆大的类 $C_k$ , 作为该结点类标记后返回 $T$ :

(5)否则，对 $A_g$ 的每一可能值 $a_i$ , 依 $A_g=a_i$ , 将 $D$ 分割为若干非空子集 $D_i$ , 将 $D_i$ 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树 $T_i$ , 返回 $T$ ;

(6)对第 $i$ 个子结点，以 $D_i 为训练集，以$ $A-\{A_g\}$ 为特征集，递归地调用步(1)~步(5), 得到子树 $T_i$ , 返回 $T_i$ 。

C4.5的生成算法

C4.5算法与ID3算法相似，C4.5 算法对ID3算法进行了改进. C4.5 在生成的过程中，用信息增益比来选择特征.

决策树的剪枝

决策树生成算法递归地产生决策树，直到不能继续下去为止.这样产生的树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即出现过拟合现象.过拟合的原因在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树.解决这个问题的办法是考虑决策树的复杂度，对已生成的决策树进行简化。

在决策树学习中将已生成的树进行简化的过程称为剪枝(pruning). 具体地，剪枝从已生成的树.上裁掉一些子树或叶结点，并将其根结点或父结点作为新的叶结点，从而简化分类树模型.

CART算法

CART是在给定输入随机变量 $X$ 条件下输出随机变量 $Y$ 的条件概率分布的学习方法。 CART假设决策树是二叉树，内部结点特征的取值为 ”是“ 和 “否” ，左分支是取值为 “是” 的分支，右分支是取值为 “否” 的分支。这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，也就是在输入给定的条件下输出的条件概率分布。

CART算法由一下两步组成：

（1）决策树生成：基于训练数据及生成决策树，生成的决策树要尽量大；

量 $X$ 条件下输出随机变量 $Y$ 的条件概率分布的学习方法。 CART假设决策树是二叉树，内部结点特征的取值为 ”是“ 和 “否” ，左分支是取值为 “是” 的分支，右分支是取值为 “否” 的分支。这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，也就是在输入给定的条件下输出的条件概率分布。

CART算法由一下两步组成：

（1）决策树生成：基于训练数据及生成决策树，生成的决策树要尽量大；

（2）决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

文献
部分理论内容参考李航《统计学习方法》