（一）——关于对线性回归的理解

最新推荐文章于 2020-07-10 00:48:00 发布

Broke_Leaf

最新推荐文章于 2020-07-10 00:48:00 发布

阅读量489

点赞数

分类专栏： Python 文章标签：机器学习线性回归

本文链接：https://blog.csdn.net/Broke_Leaf/article/details/103026316

版权

Python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文是关于线性回归以及代码实现

作为初学者，这个是我的第一篇博客，相信我在这里有不少没有做好的地方，欢迎大家指点。

1.线性回归（加粗是矩阵，带T表示转置）
函数原始模型：y=wT*x+b
b是一个我们自己给定的一个参数，一般可以选择全部为1或者0，
当然，也可以自己百度查找比较适合的结果
w可以叫做权重参数，我们的目标就是找到最适合的w
为了判断模型是否优秀有效，我们引入 ζ 作为误差，同时认为 ζ是是独立同分布，服从均值为0方差为 δ平方的高斯分布*

在这里插入图片描述

把 ζ带入方程，得到y=wT*x+ ζ+b，因为b由自己设定，为方便计算，令他全部为1，全部带入函数，简化得到 y =θT *x，我们将这个式子带入我们的模型就可以得到
在这里插入图片描述

目标是使输入x和输出y更加贴近真实值，即输入x，预测y，在概率统计中，正好有一个函数就是描述这种情况，也就是似然函数，似然函数是在既定的事实情况下，推测出什么样的值能够使你的结果符合真实值的概率最大，这个函数用在此处的结果就是使你的模型与你的数据之间拟合结果最好。
似然函数的概念：

在这里插入图片描述
如果学过概率统计的大哥或者小姐姐对这个应该很熟悉，但是如果你没太多的了解，我简单介绍一下这个等式的意义，P是由你给定一堆θ，然后来看看x，y之间的对应关系，L由你给定的x和y来找到θ
我们的目的就是找到最好的θ，也就是使L的值最大
把前面我们得到的结果带入似然函数里面我们得到
在这里插入图片描述

为方便计算，我们转化为对数似然函数
在这里插入图片描述
显然，在这个式子里面有一部分是常数，我们可以忽视他，这样也不会对我们的结果造成影响，于是，我们就得到了最下二乘法的结果

线性回归的理论内容大致结束，后面的内容属于梯度下降，我会我的下一篇文章作出我对梯度下降的理解，下面我们用代码来实现线性回归。

代码实现

import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets
class LinearRegression():
    def __init__(self):
        self.W = None
    def fit(self, X, y):
        X = np.insert(X, 0, 1, axis=1)      
        Invert_X = np.linalg.inv(X.T.dot(X))
        self.W = Invert_X.dot(X.T).dot(y)
    def predict(self, X):
        X = np.insert(X, 0, 1, axis=1)
        y_pred = X.dot(self.W)
        return y_pred

## 加载数据集，为了方便我们就用一个特征
diabetes = datasets.load_diabetes()
X = diabetes.data[:, np.newaxis, 2]

# 切分数据
x_train, x_test = X[:-20], X[-20:]
y_train, y_test = diabetes.target[:-20], diabetes.target[-20:]

#使用我们自己写的函数
clf = LinearRegression()
clf.fit(x_train, y_train)
y_pred = clf.predict(x_test)

#画图
plt.scatter(x_test[:,0], y_test,  color='black')
plt.plot(x_test[:,0], y_pred, color='blue', linewidth=3)
plt.xlabel('X')
plt.ylabel('Y')
plt.show()

效果图如下：

在这里插入图片描述
下面我们看看sklearn自带的数据效果怎么样：

代码如下：

from sklearn.linear_model import LinearRegression
from sklearn import datasets
import numpy as np
import matplotlib.pyplot as plt

# 加载数据集
diabetes = datasets.load_diabetes()

# 切分数据集
x_train, x_test = X[:-20], X[-20:]
y_train, y_test = diabetes.target[:-20], diabetes.target[-20:]

# 使用sklearn提供的方法
LR=LinearRegression()
model=LR.fit(x_train,y_train)
predicted = model.predict(x_test) 

#画图
plt.scatter(x_test[:,0], y_test, marker='x')
plt.plot(x_test[:,0], predicted,c='r')
plt.xlabel("x")
plt.ylabel("y")
plt.show()