【算法学习】线性回归，逻辑回归

最新推荐文章于 2024-05-06 23:59:04 发布

Souane

最新推荐文章于 2024-05-06 23:59:04 发布

阅读量348

点赞数

分类专栏：大数据文章标签：算法

本文链接：https://blog.csdn.net/qq_41945793/article/details/90639623

版权

大数据专栏收录该内容

7 篇文章 0 订阅

订阅专栏

【算法学习】线性回归，逻辑回归

回归问题的条件/前提：

1）收集的数据

2）假设的模型，即一个函数，这个函数里含有未知的参数，通过学习，可以估计出参数。然后利用这个模型去预测/分类新的数据。

线性回归
假设特征和结果都满足线性。即不大于一次方。这个是针对收集的数据而言。
收集的数据中，每一个分量，就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数，向量表示形式：

这个就是一个组合问题，已知一些数据，如何求里面的未知参数，给出一个最优解。一个线性矩阵方程，直接求解，很可能无法直接求解。有唯一解的数据集，微乎其微。

基本上都是解不存在的超定方程组。因此，需要退一步，将参数求解问题，转化为求最小误差问题，求出一个最接近的解，这就是一个松弛求解。

求一个最接近解，直观上，就能想到，误差最小的表达形式。仍然是一个含未知参数的线性模型，一堆观测数据，其模型与数据的误差最小的形式，模型与数据差的平方和最小：

clip_image006

这就是损失函数的来源。接下来，就是求解这个函数的方法，有最小二乘法，梯度下降法。

http://zh.wikipedia.org/wiki/%E7%BA%BF%E6%80%A7%E6%96%B9%E7%A8%8B%E7%BB%84

最小二乘法

是一个直接的数学求解公式，不过它要求X是列满秩的，

clip_image008

梯度下降法

分别有梯度下降法，批梯度下降法，增量梯度下降。本质上，都是偏导数，步长/最佳学习率，更新，收敛的问题。这个算法只是最优化原理中的一个普通的方法，可以结合最优化原理来学，就容易理解了。

逻辑回归

逻辑回归与线性回归的联系、异同？

逻辑回归的模型是一个非线性模型，sigmoid函数，又称逻辑回归函数。但是它本质上又是一个线性回归模型，因为除去sigmoid映射函数关系，其他的步骤，算法都是线性回归的。可以说，逻辑回归，都是以线性回归为理论支持的。

只不过，线性模型，无法做到sigmoid的非线性形式，sigmoid可以轻松处理0/1分类问题。

另外它的推导含义：仍然与线性回归的最大似然估计推导相同，最大似然函数连续积（这里的分布，可以使伯努利分布，或泊松分布等其他分布形式），求导，得损失函数。

\begin{align}J(\theta) = -\frac{1}{m} \left[ \sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log (1-h_\theta(x^{(i)})) \right]\end{align}

逻辑回归函数

f(t) = \frac{e^t}{et+1} = \frac{1}{1+e^{-t}}, 表现了0,1分类的形式。

应用举例：

是否垃圾邮件分类？

是否肿瘤、癌症诊断？

是否金融欺诈？,

一般线性回归

线性回归是以高斯分布为误差分析模型；逻辑回归采用的是伯努利分布分析误差。

而高斯分布、伯努利分布、贝塔分布、迪特里特分布，都属于指数分布。

clip_image040

而一般线性回归，在x条件下，y的概率分布 p(y|x) 就是指指数分布.

经历最大似然估计的推导，就能导出一般线性回归的误差分析模型（最小化误差模型）。

softmax回归就是一般线性回归的一个例子。

有监督学习回归，针对多类问题（逻辑回归，解决的是二类划分问题），如数字字符的分类问题，0-9,10个数字，y值有10个可能性。

而这种可能的分布，是一种指数分布。而且所有可能的和为1，则对于一个输入的结果，其结果可表示为：

\begin{align}h_\theta(x^{(i)}) =\begin{bmatrix}p(y^{(i)} = 1 | x^{(i)}; \theta) \p(y^{(i)} = 2 | x^{(i)}; \theta) \\vdots \p(y^{(i)} = k | x^{(i)}; \theta)\end{bmatrix}=\frac{1}{ \sum_{j=1}^{k}{e{ \theta_j^T x^{(i)} }} }\begin{bmatrix}e^{ \theta_1^T x^{(i)} } \e^{ \theta_2^T x^{(i)} } \\vdots \e^{ \theta_k^T x^{(i)} } \\end{bmatrix}\end{align}
参数是一个k维的向量。

而代价函数：
\begin{align}J(\theta) = - \frac{1}{m} \left[ \sum_{i=1}^{m} \sum_{j=1}^{k} 1\left{y^{(i)} = j\right} \log \frac{e^{\theta_jT x^{{(i)}}}{\sum_{l=1}}k e^{ \theta_l^T x^{(i)} }}\right]\end{align}
是逻辑回归代价函数的推广。

而对于softmax的求解，没有闭式解法（高阶多项方程组求解），仍用梯度下降法，或L-BFGS求解。

当k=2时，softmax退化为逻辑回归，这也能反映softmax回归是逻辑回归的推广。

线性回归，逻辑回归，softmax回归三者联系，需要反复回味，想的多了，理解就能深入了。

拟合：拟合模型/函数
由测量的数据，估计一个假定的模型/函数。如何拟合，拟合的模型是否合适？可分为以下三类

合适拟合

欠拟合

过拟合

看过一篇文章（附录）的图示，理解起来很不错：

欠拟合：
逻辑回归欠拟合-我爱公开课-52opencourse.com

合适的拟合
逻辑回归合适的拟合-我爱公开课-52opencourse.com

过拟合
逻辑回归过拟合-我爱公开课-52opencourse.com

过拟合的问题如何解决？

问题起源？模型太复杂，参数过多，特征数目过多。

方法： 1）减少特征的数量，有人工选择，或者采用模型选择算法

http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html （特征选择算法的综述）

 2） 正则化，即保留所有特征，但降低参数的值的影响。正则化的优点是，特征很多时，每个特征都会有一个合适的影响因子。

概率解释：线性回归中为什么选用平方和作为误差函数？
假设模型结果与测量值误差满足，均值为0的高斯分布，即正态分布。这个假设是靠谱的，符合一般客观统计规律。

数据x与y的条件概率：

clip_image016

若使模型与测量数据最接近，那么其概率积就最大。概率积，就是概率密度函数的连续积，这样，就形成了一个最大似然函数估计敲打。对最大似然函数估计进行推导，就得出了求导后结果：平方和最小公式

参数估计与数据的关系
拟合关系
错误函数/代价函数/损失函数：
线性回归中采用平方和的形式，一般都是由模型条件概率的最大似然函数概率积最大值，求导，推导出来的。

统计学中，损失函数一般有以下几种：

1） 0-1损失函数

L(Y,f(X))={1,0,Y≠f(X)Y=f(X)

2）平方损失函数

L(Y,f(X))=(Y−f(X))2

3）绝对损失函数

L(Y,f(X))=|Y−f(X)|

4）对数损失函数

L(Y,P(Y|X))=−logP(Y|X)

损失函数越小，模型就越好，而且损失函数尽量是一个凸函数，便于收敛计算。

线性回归，采用的是平方损失函数。而逻辑回归采用的是对数损失函数。这些仅仅是一些结果，没有推导。

正则化：
为防止过度拟合的模型出现（过于复杂的模型），在损失函数里增加一个每个特征的惩罚因子。这个就是正则化。如正则化的线性回归的损失函数：

正则化正式的定义-我爱公开课-52opencourse.com

lambda就是惩罚因子。

正则化是模型处理的典型方法。也是结构风险最小的策略。在经验风险（误差平方和）的基础上，增加一个惩罚项/正则化项。

线性回归的解，也从

θ=(XTX)−1XTy

转化为

不可逆后的正规方程-我爱公开课-52opencourse.com

括号内的矩阵，即使在样本数小于特征数的情况下，也是可逆的。

逻辑回归的正则化：

正则化逻辑回归Cost Function-我爱公开课-52opencourse.com

从贝叶斯估计来看，正则化项对应模型的先验概率，复杂模型有较大先验概率，简单模型具有较小先验概率。这个里面又有几个概念。

什么是结构风险最小化？先验概率？模型简单与否与先验概率的关系？

经验风险、期望风险、经验损失、结构风险
期望风险（真实风险），可理解为模型函数固定时，数据平均的损失程度，或“平均”犯错误的程度。期望风险是依赖损失函数和概率分布的。

只有样本，是无法计算期望风险的。

所以，采用经验风险，对期望风险进行估计，并设计学习算法，使其最小化。即经验风险最小化（Empirical Risk Minimization）ERM，而经验风险是用损失函数来评估的、计算的。

对于分类问题，经验风险，就训练样本错误率。

对于函数逼近，拟合问题，经验风险，就平方训练误差。

对于概率密度估计问题，ERM，就是最大似然估计法。

而经验风险最小，并不一定就是期望风险最小，无理论依据。只有样本无限大时，经验风险就逼近了期望风险。

如何解决这个问题？统计学习理论SLT，支持向量机SVM就是专门解决这个问题的。

有限样本条件下，学习出一个较好的模型。

由于有限样本下，经验风险Remp[f]无法近似期望风险R[f] 。因此，统计学习理论给出了二者之间的关系：R[f] <= ( Remp[f] + e )

而右端的表达形式就是结构风险，是期望风险的上界。而e = g(h/n)是置信区间，是VC维h的增函数，也是样本数n的减函数。

VC维的定义在 SVM，SLT中有详细介绍。e依赖h和n，若使期望风险最小，只需关心其上界最小，即e最小化。所以，需要选择合适的h和n。这就是结构风险最小化Structure Risk Minimization，SRM.

SVM就是SRM的近似实现，SVM中的概念另有一大筐。就此打住。