机器学习之一:线性回归

1、线性回归的原理

    线性回归类似拟合出一条广义直线最佳匹配训练集中的所有数据,一般用最小二乘法求解。它指的是拟合出的广义直线代表的真实值和观测到的数据的误差的平方和最小的一条直线。最小二乘法将最优问题转化为函数求极值问题。
数学形式:
y = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n , y ⊂ R y= \theta_0+\theta_1x_1+\theta_2x_2+...+\theta_n x_n,y\subset R y=θ0+θ1x1+θ2x2+...+θnxnyR
矩阵形式:
Y = X θ , Y ⊂ R k Y=X\theta ,Y \subset R^k Y=XθYRk
其中X矩阵是k行n+1列的,每一行是一个样本点,每一列是样本的某一个特征。
X = ( 1 x 1 1 x 1 2 . . . x 1 n 1 x 2 1 x 2 2 . . . x 2 n . . . . . . 1 x k 1 x k 2 . . . x k n ) θ = ( θ 0 θ 1 θ 2 . . . θ n ) X=\begin{pmatrix} 1&x_1^1&x_1^2&...&x_1^n\\ 1&x_2^1&x_2^2&...&x_2^n\\...\\...\\1&x_k^1&x_k^2&...&x_k^n\end{pmatrix} \theta=\begin{pmatrix} \theta_0\\\theta_1 \\\theta_2\\...\\\theta_n\end{pmatrix} X=11......1x11x21xk1x12x22xk2.........x1nx2nxknθ=θ0θ1θ2...θn
线性回归可以理解为争取让所有的样本点都落在直线上,即所有样本点和直线的距离很近,因此代价函数为:
m i n f ( x ) = ∣ ∣ X θ − Y ∣ ∣ 2 minf(x)=||X\theta-Y||^2 minf(x)=XθY2
利用最小二乘法可以获得代价函数的解析表达式:
θ = ( X T X ) − 1 X T Y \theta=(X^TX)^{-1}X^TY θ=(XTX)1XTY
线性回归优点:实现简单,计算简单;
线性回归缺点:不能拟合非线性数据;

2、线性回归代码实现:

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn import datasets, linear_model

X_parameters=[[1],[2],[3],[4],[5]]
Y_parameters=[[4],[5],[6],[7],[8]]
predict_value=6
regr = linear_model.LinearRegression()                   # 线性模型的使用
regr.fit(X_parameters, Y_parameters)                     # 对参数进行拟合
predict_outcome = regr.predict(predict_value)            # 产生预测值
theta0=regr.intercept_                                   # Intercept value:偏差值
theta1=regr.coef_                                        # coefficient value:权重值
plt.scatter(X_parameters,Y_parameters,color='blue')
plt.plot(X_parameters,regr.predict(X_parameters),color='red',linewidth=4)
>>plt.show()

这里写图片描述

3、多项式回归代码实现

import numpy as np  
import matplotlib.pyplot as plt  
import matplotlib.mlab as mlab
from sklearn import datasets, linear_model
from scipy.optimize import leastsq

 #样本数据(Xi,Yi),需要转换成数组(列表)形式
Xi=np.array([1,2,3,4,5,6])
Yi=np.array([9.1,18.3,32,47,69.5,94.8])
'''
    1设定拟合函数和偏差函数
    2函数的形状确定过程:先画样本图像,再根据样本图像大致形状确定函数形式(直线、抛物线、正弦余弦等)
'''
   #需要拟合的函数func:指定函数的形状,可以为二次函数,三次函数......多次函数,次数越高系数越多
def func(p,x):
    a,b,c=p
    return a*x*x+b*x+c
   #偏差函数:x,y都是列表:这里的x,y更上面的Xi,Yi中是一一对应的
def error(p,x,y):
    return func(p,x)-y
'''    
    1.leastsq函数的返回值tuple,第一个元素是求解结果,第二个是求解的代价值(个人理解)
    2.官网的原话(第二个值):Value of the cost function at the solution
    3.实例:Para=>(array([ 0.61349535,  1.79409255]), 3)
    4.返回值元组中第一个值的数量跟需要求解的参数的数量一致
'''
   #k,b的初始值,可以任意设定,经过几次试验,发现p0的值会影响cost的值:Para[1]
p0=[10,10,10]
   #把error函数中除了p0以外的参数打包到args中(使用要求)
Para=leastsq(error,p0,args=(Xi,Yi))
   #读取结果
a,b,c=Para[0]
print("a=",a,"b=",b,"c=",c)
print("cost:"+str(Para[1]))
print("求解的拟合直线为:")
print("y="+str(round(a,2))+"x*x+"+str(round(b,2))+"x+"+str(c))
plt.scatter(Xi,Yi,color="green",linewidth=2) 
x=np.linspace(0,12,100) ##在0-15直接画100个连续点
y=a*x*x+b*x+c ##函数式
plt.plot(x,y,color="red",linewidth=2) 
plt.show()

这里写图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
很高兴回答您的问题!本文将重介绍如何使用tensorflow和sklearn实现线性回归,并比较两种方法的优缺。 一、线性回归介绍 线性回归是一种基本的机器学习算法,用于预测一个连续的数值。它是一种监督学习算法,需要有一个训练集来训练模型。在线性回归中,我们假设目标变量与自变量之间是线性关系,因此我们尝试找到一条最佳拟合直线来描述它们之间的关系。 二、使用tensorflow实现线性回归 TensorFlow是一个由Google开发的开源机器学习框架,它具有高效、灵活和易于使用的特,广泛应用于各个领域。下面我们将介绍如何使用TensorFlow实现线性回归。 1、导入库 ``` import tensorflow as tf import numpy as np import matplotlib.pyplot as plt ``` 2、生成数据 为了演示线性回归,我们需要生成一些数据。我们将生成一个简单的数据集,其中有100个随机数,分别作为X和Y。 ``` X = np.random.rand(100).astype(np.float32) Y = X * 0.1 + 0.3 ``` 3、定义模型 在TensorFlow中,我们需要定义一个计算图来描述我们的模型。在本例中,我们将使用一个简单的线性模型 y = wx + b,其中w和b是我们需要学习的参数。 ``` w = tf.Variable(tf.random_uniform([1], -1.0, 1.0)) b = tf.Variable(tf.zeros([1])) y = w * X + b ``` 4、定义损失函数 我们需要定义一个损失函数来衡量模型的性能。在本例中,我们将使用均方误差作为损失函数。 ``` loss = tf.reduce_mean(tf.square(y - Y)) ``` 5、定义优化器 我们需要定义一个优化器来最小化损失函数。在本例中,我们将使用梯度下降优化器。 ``` optimizer = tf.train.GradientDescentOptimizer(0.5) train = optimizer.minimize(loss) ``` 6、训练模型 我们需要训练模型来学习参数w和b。在本例中,我们将使用1000次迭代来训练模型。 ``` init = tf.global_variables_initializer() sess = tf.Session() sess.run(init) for step in range(1000): sess.run(train) if step % 100 == 0: print(step, sess.run(w), sess.run(b)) ``` 7、可视化结果 我们可以使用matplotlib库来可视化模型的结果。 ``` plt.plot(X, Y, 'ro', label='Original data') plt.plot(X, sess.run(w) * X + sess.run(b), label='Fitted line') plt.legend() plt.show() ``` 三、使用sklearn实现线性回归 scikit-learn是一个流行的Python机器学习库,提供了许多常用的算法和工具。现在我们将介绍如何使用scikit-learn实现线性回归。 1、导入库 ``` import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression ``` 2、生成数据 我们使用与上面相同的数据集。 ``` X = np.random.rand(100, 1) Y = X * 0.1 + 0.3 ``` 3、定义模型 在scikit-learn中,我们需要实例化一个线性回归模型。 ``` model = LinearRegression() ``` 4、训练模型 我们可以使用fit()方法来训练模型。 ``` model.fit(X, Y) ``` 5、可视化结果 我们可以使用matplotlib库来可视化模型的结果。 ``` plt.plot(X, Y, 'ro', label='Original data') plt.plot(X, model.predict(X), label='Fitted line') plt.legend() plt.show() ``` 四、对比两种方法的优缺 使用TensorFlow实现线性回归的优: 1. TensorFlow是一个灵活的框架,可以轻松地实现各种机器学习算法。 2. TensorFlow提供了高效的计算图实现,可以利用GPU进行加速。 3. TensorFlow具有良好的可视化工具,可以帮助我们更好地理解和调试模型。 使用TensorFlow实现线性回归的缺: 1. TensorFlow需要对TensorFlow的基本原理有一定的了解,对初学者来说可能有一定的难度。 2. TensorFlow的语法相对较为复杂,需要花费一些时间来学习和理解。 3. TensorFlow需要编写大量的代码来实现模型,相对于scikit-learn可能稍微繁琐一些。 使用scikit-learn实现线性回归的优: 1. scikit-learn是一个简单易用的Python机器学习库,可以快速实现各种机器学习算法。 2. scikit-learn提供了大量的实用工具和函数,可以帮助我们更好地处理数据和调试模型。 3. scikit-learn的语法相对较为简单,对初学者来说比较友好。 使用scikit-learn实现线性回归的缺: 1. scikit-learn的灵活性相对较低,不如TensorFlow那么灵活。 2. scikit-learn的计算效率可能比TensorFlow略低。 3. scikit-learn的可视化工具相对较少,不如TensorFlow那么强大。 以上就是使用TensorFlow和scikit-learn实现线性回归的方法和比较。希望对您有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值