线性模型的基本形式

最新推荐文章于 2024-07-20 00:22:05 发布

zlinzju

最新推荐文章于 2024-07-20 00:22:05 发布

阅读量5.7k

点赞数 2

分类专栏：机器学习文章标签：线性模型线性回归逻辑回归

本文链接：https://blog.csdn.net/weixin_43026262/article/details/105181067

版权

本文介绍了线性模型的基本形式，包括线性回归和逻辑回归。线性模型在理论和应用层面都有重要地位，尤其是在工业实践中。线性模型的线性特性不仅针对参数w，而且可以通过基函数扩展解决非线性问题。线性回归的目标是通过学习模型参数，使预测值尽可能接近真实值。此外，文章还讨论了分类问题的解决思路，包括基于判别函数和基于判别式的模型。

摘要由CSDN通过智能技术生成

文章目录

- 线性模型的基本形式

线性模型的基本形式

线性模型Linear Model是监督学习中一种重要模型：
1.理论层面
Linear Regression是回归问题的基础
Logistic Regression是分类问题的基础
有一定局限性：高维空间输入（和全局函数的特性有关）
具有可扩展性：基函数方法使得线性模型能够解决非线性问题

PS：
1.深度模型结构的常用设计思路：线性模型+非线性激活函数，比如SVM+NN
2.分类输出离散的预测值，回归输出连续的预测值

2.应用层面
大量企业级的应用主要还是线性模型为主
工业环境中最大的局限来自于：模型训练的时间
理想的方式是把t时刻之前的数据都扔到模型里，但实际上训练时间和资源不够，所以需要了解模型更新的时间，比如5小时更新一次模型，那么训练时间必须小于5小时。假设模型A是一个SVM模型，现在有两个选择：a.train7天的数据10个维度，b.train一天的数据70维度，这两种选择扔进模型的数据总量是一样的；假设模型B是一个Linear Model，那么就可以train30天的10维数据，这样总的数据量更大了，更不容易过拟合，而且其实模型更简单本身需要的数据量反而更小，所以train的效果会更好。
e.g. Bing在2009年的核心排序模型是DNN，但后来改成了GBT。

Logistic Regression是工业界最常用的模型：
简单易训练
解释性好（参数直接反应了特征强弱），尤其金融领域很看重解释性
概率形式，适合预估

ML想做的是这么一件事：通过已有的历史数据，找到隐藏在事物背后的规律/模式。
当我们知道了规律之后，就可以进行预测了。
实际上，在一定的误差允许范围内，大部分的规律都可以通过线性模型来表示，非线性的规律也可以。

线性模型的“线性”

误区：线性模型学习出来的流形（划分超平面）只能是线性的
一些常见的错误说法：

线性和非线性的区别是是否可以用直线/线性超平面来划分开
$f (x) = w 1 x 1 + w 2 x 2 + . . . w d x d + b$ 只有这种形式才是线性模型，因为每个自变量 $x$ 前面的参数 $w$ 只能影响一个x，而 $w x 1 x 2$ 这种形式则不是线性模型

实际上，基函数的观点是，线性与否不是针对自变量x来看的，不是看 $x$ 的形式是否线性（ $x 1$ 是线性， $x1^2$ ， $x 1 x 2$ 不是线性）
线性其实是针对参数 $w$ 来看的，只要 $w$ 是线性的( $w 1$ 是线性的， $w1^2$ ， $w 1 w 2$ 非线性)，那么这个模型就是线性的
而x是怎样的反而无所谓，因为我们可以把 $x$ 加上一个基函数变成 $φ (x)$
因此 $f (x) = w 1 x 1 + w 2 x 2 + . . . w d x d + b$ 是线性模型，是因为这个方程针对 $w$ 来说是线性的