线性回归，逻辑回归的学习（包含最小二乘法及极大似然函数等）-CSDN博客

回归问题的前提：

1）收集的数据

2）假设的模型，即一个函数，这个函数里含有未知的参数，通过学习，可以估计出参数。然后利用这个模型去预测/分类新的数据。

假设特征和结果都满足线性。即不大于一次方。这个是针对收集的数据而言。

收集的数据中，每一个分量，就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数，向量表示形式：

向量默认为列向量，此处的X表示一个列向量，其中内容为（x1，x2，x3.......,xn），用以表示收集的一个样例。

向量内容为设置的系数（w1,w2.....,wn），也就是要通过学习得到的系数，转置后成为行向量。两者相乘后得到预测打分h。

这个就是一个组合问题，已知一些数据，如何求里面的未知参数，给出一个最优解。一个线性矩阵方程，直接求解，很可能无法直接求解。有唯一解的数据集基本是不存在的。基本上都是解不存在的超定方程组（未知数的个数小于方程的个数）。因此，需要退一步，将参数求解问题，转化为求最小误差问题，求出一个最接近的解，这就是一个松弛求解。

求一个最接近解，直观上，就能想到，误差最小的表达形式。仍然是一个含未知参数的线性模型，一堆观测数据，其模型与数据的误差最小的形式，模型与数据差的平方和最小：

这就是损失函数（cost function）的来源，文中之后我们称之为目标函数。接下来，就是求解这个函数最小值的方法，有最小二乘法，梯度下降法等（利用这些方法使这个函数的值最小）。

**********最小二乘法：************

多元函数求极值的方法，对θ求偏导，让偏导等于0，求出θ值。当θ为向量时，需要对各个θi求偏导计算。

为了便于理解，可以先看当数据集中的样本只有一个特征时的情况，参看之前的最小二乘法博文，可以直接得出theta的值（原先博文中表示为beta）。当含有多个特征时，需要进行矩阵计算从而求出各个θi:

如上图中将目标函数拆解为两个式子相乘的形式（

）其中的X表示获取的数据集转换成的矩阵，与列向量

相乘后得到预测打分（列向量θ），与真实打分y向量想减后平方。上图中的下半部分对于拆解后的目标函数进行求导，令求导后的式子=0，如下图:

由此可以得到向量θ的值。

其中补充说明:

*****************梯度下降法：**************************

分别有梯度下降法，批梯度下降法，增量梯度下降。本质上，都是偏导数，步长/最佳学习率，更新，收敛的问题。这个算法只是最优化原理中的一个普通的方法，可以结合最优化原理来学，就容易理解了。（梯度下降中用到的目标函数不一定是之前提到的那个距离最小函数，在之后的逻辑回归中，要用到梯度上升，在那里细述）

******************极大似然法************************************

极大似然的核心思想为：

当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。打个比方：一个袋子中有20个球，只有黑白两色，有放回的抽取十次，取出8个黑球和2个白球，计算袋子里有白球黑球各几个。那么我会认为我所抽出的这个样本是被抽取的事件中概率最大的。p（黑球=8）=p^8*（1-p）^2,让这个值最大。极大似然法就是基于这种思想。

极大似然估计的定义如下：

求解方法同样采用多元函数求极值法。

2、逻辑回归

逻辑回归与线性回归的联系、异同？

逻辑回归的模型是一个非线性模型，sigmoid函数，又称逻辑回归函数。但是它本质上又是一个线性回归模型，因为除去sigmoid映射函数关系，其他的步骤，算法都是线性回归的。可以说，逻辑回归，都是以线性回归为理论支持的。只不过，线性模型，无法做到sigmoid的非线性形式，sigmoid可以轻松处理0/1分类问题。

在另一篇博文（logistic）中有对逻辑回归的详细说明。在逻辑回归中，重新定义了cost function，

另外它的推导含义：仍然与线性回归的最大似然估计推导相同，最大似然函数连续积（这里的分布，可以使伯努利分布，或泊松分布等其他分布形式），求导，得损失函数。

（参看logistic那篇博文）

3、一般线性回归（这部分尚未做过多研究）

线性回归是以高斯分布为误差分析模型；逻辑回归采用的是伯努利分布分析误差。

而高斯分布、伯努利分布、贝塔分布、迪特里特分布，都属于指数分布。

而一般线性回归，在x条件下，y的概率分布 p(y|x) 就是指指数分布.

经历最大似然估计的推导，就能导出一般线性回归的误差分析模型（最小化误差模型）。

softmax回归就是一般线性回归的一个例子。

有监督学习回归，针对多类问题（逻辑回归，解决的是二类划分问题），如数字字符的分类问题，0-9,10个数字，y值有10个可能性。

而这种可能的分布，是一种指数分布。而且所有可能的和为1，则对于一个输入的结果，其结果可表示为：

参数是一个k维的向量。