机器学习笔记线性模型

最新推荐文章于 2024-07-22 22:33:49 发布

DataAnalysts

最新推荐文章于 2024-07-22 22:33:49 发布

阅读量401

点赞数

分类专栏：机器学习文章标签：机器学习回归模型

本文链接：https://blog.csdn.net/DataAnalysts/article/details/87007270

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

写在前面的一些废话
伴随课程以及自习，学得既算系统也算零散。学校多统计，算法讲解几近寥寥。自古以来，统计系的教授多半乐于指摘机器学习与人工智能，但学科总又不得不与之挂钩密切，且多随其发展潮起潮落。内部纠纷，不足为外人道已。只有深受其纷杂概念困扰的学习者，感触颇深。不随时总结，建立知识库，实在容易迷失。

对《利用PYTHON进行数据分析》重点章节粗略研习，绘制思维导图加深记忆，成效喜闻乐见。但考虑到涉及的原理与算法，知识点繁多，思维导图不利于初学记忆与学习，故择些要点阐述与加深印象。(注：原理与算法总结多出自于《Python大战机器学习》，有兴趣者可自行阅读研习。) 文章阅读适合对像：有一定统计基础，希望串知识点，查漏补缺。

总结多数机器学习算法框架，可发现组成部分：
1. 明确样本输入与输出；
2. 构建待学习模型；
3. 确定损失函数/目标函数(平方损失函数等)；
4. 明确模型目标(最小化、最大化)；
5. 求解方法(最小二乘法、极大似然估计、牛顿迭代法、拉格朗日等)；
6. 求解结果形式；
其中，由于不同的模型方法，涉及的损失函数不尽相同，部分涉及参数的引进与构建。此时，求解过程多半需要参数优化与交叉验证。

正文
1.1 线性模型概述
线性模型中的“线性”其实是一系列一次特征的线性组合，在二维空间中是一条直线，在三位空间是一个平面，推广至n维空间，为广义线性模型。
广义线性模型包括：岭回归、lasso回归、Elastic Net、逻辑回归、线性判别分析等。
模型形式：在这里插入图片描述
其中，表示样本，样本包含n种特征，为每个特征对应的权重生成的权重向量，直观表示各个特征在预测中的重要性。

1.2 算法精华
1.2.1 普通线性回归
原理关键词：回归分析技术、函数估计（参数估计和非参数估计）、因果关系、有监督
学习模型：在这里插入图片描述
损失函数：（平方损失函数）
求解目标：
求解方法：最小二乘法与梯度下降法
注意点：梯度下降法需对特征归一化，这是许多机器学习模型都需注意的问题。特征归一化的好处：1.提升模型的收敛速度，归一化可以极大减少寻找最优解的时间；2.提升模型精度，比如计算欧式距离，取值范围大的特征对结果产生的影响较大，容易导致精度的损失。
求解过程(以多元线性回归为例)：
令：

在这里插入图片描述
则有：

令：

则：

令，求其极小值。求导令导数为零，得到解析解：

当为满秩矩阵或者正定矩阵时，可得：
当不是满秩矩阵时，也就是说样本特征存在多重共线性，权重向量有多个解析解。解决方法：1.逐步回归，选择合适特征进行回归；2.偏最小二乘法或主成分回归，对变量进行降维；3.引入正则化项，也是常用方法，如L1正则化或者L2正则化，分别代表LASSO与岭回归方法。不同的正则化方法，求解结果不尽相同。以L2正则化为例：
在这里插入图片描述
其中，调整正则化项与均方误差的比例；||…||2为L2范数

1.2.2 广义线性模型
考虑单调可导函数h(·)，令在这里插入图片描述，这样得到的模型称为广义线性模型。即对因变量与自变量进行相应变换，将非线性模型转换至线性模型进行求解。典型例子为对数线性回归：

1.2.3 逻辑回归原理
关键词：分类、对数概率函数
Odds(优势比/概率)：在这里插入图片描述
Logit(log odds 对数概率)：
学习模型(以二分类为例)：
目标函数：（似然函数）
求解目标：极大化似然函数
求解方法：极大似然估计、梯度下降法、牛顿法
求解结果：

在这里插入图片描述
对于多分类逻辑回归问题：设离散随机变量Y的取值集合为[1,2,…,K]，则求解模型为

1.2.4 线性判别分析(LDA)
原理关键词：样本投影、同类样本投影点尽可能地接近、异类样本地投影点尽可能地远离
学习模型(以二分类为例)：求解满足条件的投影线，如下所示
在这里插入图片描述
其中，两类样本的中心在直线上的投影分别为和；两类样本投影的方差分别为和。
目标函数：

求解目标：使目标函数最大化，即使同类样例投影点的方差(分母)尽可能地小，使异类样例地中心地投影点尽可能地远(分子尽可能大)
求解方法：拉格朗日乘子法
求解结果：在这里插入图片描述
其中，对于多分类LDA，将样本投影到M-1维空间。但由于不止两个中心点，不能完全简单套用二类LDA的做法。考虑到每一类样本集的大小可能不同，故对这个距离加以权重。此时，定义类散布矩阵。