100-Days-Of-ML系列Day3

最新推荐文章于 2024-08-15 23:39:34 发布

sysu63

最新推荐文章于 2024-08-15 23:39:34 发布

阅读量324

点赞数

分类专栏： 100-Days-Of-ML 文章标签：多元线性回归机器学习 python 最大似然

本文链接：https://blog.csdn.net/sysu63/article/details/81713078

版权

100-Days-Of-ML 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

今天来学习多元线性回归。多元线性回归与简单线性回归类似，都是尝试通过一个线性函数来拟合数据，不同的是，多元线性回归的自变量包含两个或两个以上的特征。
首先给出多元线性回归的一般模型： ${h_\theta }\left( x \right) = {\theta _0} + {\theta _1}{x_1} + \cdots + {\theta _n}{x_n}$ ,写成矩阵形式就是 ${h_\theta }\left( x \right) = \sum\limits_{i = 0}^n {{\theta _i}{x_i}} = {\theta ^T}x$ 。
多元线性回归模型有以下假定：

零均值假定，随机误差项 $\mu$ 均值为0。
同方差假定，随机误差项 $\mu$ 方差为同一常数。
无自相关性，即 $Cov\left( {{\mu _i},{\mu _j}} \right) = 0,\left( {i \ne j,i,j = 1,2, \cdots ,n} \right)$ 。
随机误差项与x不相关。
随机误差项服从均值为0，方差为 ${\sigma ^2}$ 的正态分布。
解释变量x之间不存在多重共线性。

基于这些假设，我们可以用最小二乘拟合多元线性回归模型，这里最小二乘与最大似然法是等价的。
对于多元线性回归模型： ${y^{\left( i \right)}} = {\theta ^T}{x^{\left( i \right)}} + {\varepsilon ^{\left( i \right)}}$ ，根据上面的假设，我们有： $p\left( {{\varepsilon ^{\left( i \right)}}} \right) = \frac{1}{{\sqrt {2\pi } \sigma }}\exp \left( { - \frac{{{{\left( {{\varepsilon ^{\left( i \right)}}} \right)}^2}}}{{2{\sigma ^2}}}} \right)$ ，即 $p\left( {{y^{\left( i \right)}}\left| {{x^{\left( i \right)}};\theta } \right.} \right) = \frac{1}{{\sqrt {2\pi } \sigma }}\exp \left( { - \frac{{{{\left( {{y^{\left( i \right)}} - {\theta ^T}{x^{\left( i \right)}}} \right)}^2}}}{{2{\sigma ^2}}}} \right)$
所以似然函数为： $L\left( \theta \right) = \prod\limits_{i = 1}^m {p\left( {{y^{\left( i \right)}}\left| {{x^{\left( i \right)}};\theta } \right.} \right)} = \prod\limits_{i = 1}^m {\frac{1}{{\sqrt {2\pi } \sigma }}\exp \left( { - \frac{{{{\left( {{y^{\left( i \right)}} - {\theta ^T}{x^{\left( i \right)}}} \right)}^2}}}{{2{\sigma ^2}}}} \right)}$
对数似然函数：

上式中减号前面为常数项，最大化似然函数即为最小化求和项，故将求和项的相反数作为为我们的目标函数： $J\left( \theta \right) = \frac{1}{2}\sum\limits_{i = 1}^m {{{\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)}^2}} = \frac{1}{2}{\left( {X\theta - y} \right)^T}\left( {X\theta - y} \right)$
求梯度：

得到参数的解析式： $\theta {\rm{ = }}{\left( {{X^T}X} \right)^{{\rm{ - 1}}}}{X^T}y$
得到的结果与最小二乘的结果完全一样，故二者在这个模型中是等价的。
当然，在实际运用中，我们会对自变量x进行选择，选择方法包括向前选择法、向后选择法、向前向后法。
在求解过程中会加入一些正则项防止过拟合。求解也很简单，只要适当地改造我们的目标函数即可。详细内容见我的另一篇博客，回归。
介绍完理论，下面就按照给出的代码，用python实现简单的多元回归模型。

第一步数据预处理

导入相应的库

import pandas as pd
import numpy as np

读取数据

dataset = pd.read_csv('50_Startups.csv')
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : ,  4 ].values

数据处理

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder = LabelEncoder()
X[: , 3] = labelencoder.fit_transform(X[ : , 3])
onehotencoder = OneHotEncoder(categorical_features = [3])
X = onehotencoder.fit_transform(X).toarray()

onehot编码之后会产生共线性，所以需要把其中一列去掉。

X = X[: , 1:]

切分数据集

from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state = 0)

拟合模型

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, Y_train)

预测测试集的结果

y_pred = regressor.predict(X_test)

结果对比：

可以看到预测结果和真实结果还是有一定差距的，说明我们的模型还不是太完美。
day3

sysu63

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
100-Days-Of-ML系列Day3

今天来学习多元线性回归。多元线性回归与简单线性回归类似，都是尝试通过一个线性函数来拟合数据，不同的是，多元线性回归的自变量包含两个或两个以上的特征。首先给出多元线性回归的一般模型：hθ(x)=θ0+θ1x1+⋯+θnxnhθ(x)=θ0+θ1x1+⋯+θnxn{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}{x_1} + \cdo...
复制链接

扫一扫