机器学习之线性模型

最新推荐文章于 2023-03-20 23:18:42 发布

IT_xiao兵

最新推荐文章于 2023-03-20 23:18:42 发布

阅读量340

点赞数

分类专栏： LinearModel 文章标签： Linear Model

本文链接：https://blog.csdn.net/weixin_35708219/article/details/82355766

版权

LinearModel 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1 线性回归

1.1 基本形式

给定由d个属性描述的样本 $X\textup{\mathbf{}} = \left ( x_{1};x_{2};.....;x_{3 } \right )$ ,其中 $x_{i}$ 是X在第i个属性上的取值，线性模型是一个通过属性的线性组合来进行预测的函数一般形式如下：

$f(x) = w_{1}x_{1}+w_{2}x_{2}+ ....+w_{d}x_{d} + b$

一般用向量形式写成如下：

$f(x) = \mathbf{w}^{^{T}}\mathbf{x} + b$

其中 $w = (w1:w2;...;wd)$ 。w和b学得之后，模型得以确定。

1.2 线性回归

给定数据集 $D = \left \{ (\mathbf{x}_{1},y_{1}) ,(\mathbf{x}_{2},y_{2}),....,(\mathbf{x}_{m},y_{m})\right \}$ ，其中 $\mathbf{x}_{i} = \left (x_{i1} ;x_{i2};...;x_{id}\right ),y_{i}\in \mathbb{R}$ 。线性回归试图学得一个线性模型尽可能准确的预测实值输出标记。

试图学得 $f(x_{i}) = wx_{i} + b ，使得f(x_{i}) \approx y_{i}$ ，使得 $f(x_{i}) \approx y_{i}$ 。

如何确定w和b, 关键在于衡量 $f(x)$ 和 $y$ 之间的差别。在这里我们使用均方误差。因此我们可以使用均方误差最小化来求得w和b，即：

$E_{w,b} = (w^{*},b^{*}) = arg \: min\sum_{i=1}^{m}(f(x_{i}) - y_{i}) = arg \: min\sum_{i=1}^{m}(y_{i} - wx_{i} -b)$ (1)

求解w和b使得上式最小化的过程称为线性回归模型的最小二乘”参数估计“我们可将 $E_{w,b}$ 分别对w和b求导，得到

$\frac{\partial E_{w,b}}{\partial x} = 2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i} - b)x_{i})$ (2)

$\frac{\partial E_{w,b}}{\partial x} = 2(mb - \sum_{i=1}^{m}(y_{i}-wx_{i}))$ (3)

令上式为0可以求得w和b的解。

我们把w和b吸纳进向量形式 $\hat{\mathbf{w}} = \left ( \mathbf{w},\mathbf{b} \right )$ ,把数据集D表示成一个m*(d+1)大小的矩阵X，每一行代表一个样本，该行前d个元素对应d个属性值，最后一个元素恒置为1，即

$\mathbf{X} =\begin{pmatrix} x_{11}&x_{12} & ... &x_{1d} &1 \\ x_{21}& x_{22} & ... & x_{2d} &1 \\ ...& ... & ...&... & ...\\ x_{m1}& x_{m2} & .... &x_{md} &1 \end{pmatrix} = \begin{pmatrix} x_{1}^{T} & 1\\ x_{2}^{T} &1 \\ ...& ...\\ x_{m}^{T} & 1 \end{pmatrix}$

再把标记写成向量形式 $\mathbf{y} = (y_{1};y_{2};.....;y_{m})$ ，类似与（1）式有

$E_{\hat{w}} = arg\: min(\mathbf{y}-\mathbf{X}\hat{\mathbf{w}})^{T}(\mathbf{y}-\mathbf{X}\hat{\mathbf{w}})$ ,对 $E_{\hat{w}}$ 求导得到

$\frac{\partial E_{\hat{w}}}{\partial \hat{w}}= 2\mathbf{X}^{T}(\mathbf{X}\hat{\mathbf{w}}-\mathbf{y}))$ （4）

令该式为0可得到 $\hat{w}$ 的解，由于涉及到逆矩阵，下面做一个简单讨论：

当 $\mathbf{X}^{T}\mathbf{X}$ 为满秩矩阵或者正定矩阵时，令上式为0可以得到

$\hat{\mathbf{w}}^{*} = (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{y}$

最终得到线性模型为 $f(\hat{\mathbf{w}}_{i})=\hat{x}_{i}^{T}(\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{y}$

然而现实生活中， $\mathbf{X}^{T}\mathbf{X}$ 往往不是满秩，X的列数多于行数，此时可以解出多个w的值，解决方法是引入正则化。如L2正则化。

1.3 广义线性模型

$y = g^{-1}(\mathbf{w}^{T}\mathbf{x}+b)$

1.4 对数几率回归

1.5 线性判别分析

线性判别分析（Linear Discriminant Analysis)的思想：给定训练集，设法将样列投影到一条直线上，使得同类样本投影点尽可能进，异类样本投影点尽可能远。在对新样本进行分类时，将其投影到同样的这条直线上，根据投影点来判断新样本的类别。

给定数据集 $D=\left \{ (\mathbf{x}_i,y_i) \right \}_{i=1}^{m},y_i\in \left \{ 0,1 \right \}$ 令 $X_i,\mu _i,E_i$ 分别表示第 $i \in \left \{ 0,1 \right \}$ 类示例的集合，均值向量，协方差矩阵。若将数据投影到直线 $\mathbf{w}$ 上，则两类样本的中心在直线上的投影分别为 $\mathbf{w}^T\mathbf{\mu _0}$ 和 $\mathbf{w}^T\mathbf{\mu _1}$ ;若将所有样本点都投影到直线上，则两类样本的协方差跟别为 $\mathbf{w}^TE_{0}\textbf{w}$ 和 $\mathbf{w}^TE_{1}\textbf{w}$ ，由于直线时一维空间，因此前边的表达式均为实数。

要使同类样例的投影点尽可能接近，可以使同类样本投影点的协方差尽可能小，即 $\mathbf{w}^TE_{0}\textbf{w}+\mathbf{w}^TE_{1}\textbf{w}$ 尽可能小。要使异类样例投影点尽可能远，可以使类中心之间的差距尽可能大，即 $\left \| \mathbf{w}^T\mathbf{\mu _0}-\mathbf{w}^T\mathbf{\mu _1} \right \|_2^2$ 尽可能大，同时考虑二者，则可以达到最大化的目标

$J =\frac{\left \| \mathbf{w}^T\mathbf{\mu _0}-\mathbf{w}^T\mathbf{\mu _1} \right \|_2^2}{\mathbf{w}^TE_{0}\textbf{w}+\mathbf{w}^TE_{1}\textbf{w}} =\frac{\mathbf{w^T}(\mathbf{\mu _0-\mu_1})(\mathbf{\mu _0-\mu_1})^T\mathbf{w}}{\mathbf{w^T}(\mathbf{E_0+E_1})\mathbf{w}}$

定义”类内散度矩阵“ $\mathbf{S_w} = \mathbf{E_0 +E_1}=\sum_{\mathbf{x} \in X_0}(x-\mu _0)(x-\mu _0)^T+\sum_{\mathbf{x}\in X_1}(x - \mu1 )(x - \mu1 )^T$ 以及”类间散度矩阵 $\mathbf{S_b} = \mathbf{(\mu _0 - \mu _1)(\mu _0 - \mu _1)^T}$ ,则J可以重写为

$J= \frac{\mathbf{w^TS_{b}w}}{\mathbf{w^TS_{w}w}}$

如何确定w?上式分子分母为关于w的二次项，因此上式的解和w的长度无关（若w是解，对于任意常数C,Cw也是解），不失一般性令 $\mathbf{w^TS_{w}w} =1$ 则上式等价于

$\underset{\mathbf{w}}{min}\: \:\mathbf{w^TS_{b}w}$

$s.t.\: \:\mathbf{w^TS_{w}w}=1$

由拉格朗日乘子法，上式等价于

$\mathbf{S_bw = \lambda S_ww}$

其中 $\lambda$ 是拉格朗日乘子， $\mathbf{S_bw } =\mathbf{(\mu _0 - \mu _1)(\mu _0 - \mu _1)^Tw}$ 因为 $\mu _0 - \mu _1$ 形状为（2，1）其转置为（1，2)，w的形状是（2*1），故后两个的乘积是标量，所以 $\mathbf{S_bw}$ 的方向恒为 $\mu _0 - \mu _1$ ，不妨令

$\mathbf{S_bw = \lambda (\mu_0 - \mu_1)}$ ，将该式带入上式，得到

$\mathbf{w = S_w^{-1}(\mu_0 - \mu_1)}$ .

在实践中常常通过奇异值分解来求Sw的逆。 $S_w = UEV^T$

$S_w^{-1} = VE^{-1}U^T$

代码如下：

#完整数据
X = df[:,1:3]
y = df[:,3]
#去掉14行的数据
X = np.delete(X, 14, 0)
y = np.delete(y, 14, 0)
# 获取均值向量
u = []
for i in range(2):
    u.append(np.mean(X[y==i],axis=0))
#计算类内散度矩阵
m,n = np.shape(X)
Sw = np.zeros((n,n))
for i in range(m):
    x_temp = X[i].reshape(n,1)
    if y[i] == 0:
        u_temp = u[0].reshape(n,1)
    if y[i] == 1:
        u_temp = u[1].reshape(n,1)
    Sw += np.dot((x_temp - u_temp),(x_temp - u_temp).T)
#利用奇异值分解求Sw的逆
Sw = np.mat(Sw)
U, sigma, V = np.linalg.svd(Sw)
Sw_inv = V.T * np.linalg.inv(np.diag(sigma)) * U.T
#计算w
w = np.dot(Sw_inv,(u[0]-u[1]).reshape(n,1))
print(w)
#画出LDA
f1 = plt.figure(1)

plt.xlim(-0.2, 1)
plt.ylim(-0.5, 0.7)


p0_x0 = -X[:,0].max()
p0_x1 = ( w[1,0] / w[0,0] ) * p0_x0
p1_x0 = X[:,0].max()
p1_x1 = ( w[1,0] / w[0,0] ) * p1_x0

print((w[1,0] / w[0,0]))

plt.title("watermelon")
plt.xlabel("density")
plt.ylabel("sugar_ratio")
plt.scatter(X[y == 0,0], X[y == 0,1],marker = 'o', color = 'k', s=10, label = 'bad')
plt.scatter(X[y == 1,0], X[y == 1,1],marker = 'o', color = 'g', s=10, label = 'good')
plt.legend(loc = 'upper right')

plt.plot([p0_x0, p1_x0], [p0_x1, p1_x1])


#求投影点
def GetProjectivePoint_2D(point, line):
    a = point[0]
    b = point[1]
    k = line[0]
    t = line[1]

    if   k == 0:      return [a, t]
    elif k == np.inf: return [0, b]
    x = (a+k*b-k*t) / (k*k+1)
    y = k*x + t
    return [x, y]




m,n = np.shape(X)
for i in range(m):
    x_p = GetProjectivePoint_2D( [X[i,0], X[i,1]], [w[1,0] / w[0,0] , 0] ) 
    if y[i] == 0: 
        plt.plot(x_p[0], x_p[1], 'ko', markersize = 5)
    if y[i] == 1: 
        plt.plot(x_p[0], x_p[1], 'go', markersize = 5)   
    plt.plot([ x_p[0], X[i,0]], [x_p[1], X[i,1] ], 'c--', linewidth = 0.3)
plt.show()

IT_xiao兵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之线性模型

1 线性回归1.1 基本形式给定由d个属性描述的样本,其中是X在第i个属性上的取值，线性模型是一个通过属性的线性组合来进行预测的函数一般形式如下：一般用向量形式写成如下：其中。w和b学得之后，模型得以确定。1.2 线性回归给定数据集，其中。线性回归试图学得一个线性模型尽可能准确的预测实值输出标记。试图学得，使得。如何确定w和b, 关键在于衡量和之间的差别。在...
复制链接

扫一扫