【机器学习】【线性回归】基本概念详解

训练用例

(xi,yi),此元祖成为训练用例数据集

训练数据集

xiyi),i=1,2,……m,此m个训练用例成为训练数据集

输入数据集

用X来表示输入数据集

输出数据集

用y来表述输出数据集

机器学习目标

机器学习的目标是,给定一个训练数据集,训练一个函数h:x->y,使得h(x)是一个好的预测函数,“好”的意思是给一个xi,通过h(x)计算出来的y,非常接近实际的yi,即y与yi的偏差最小,即拟合度最高。

线性回归

线性回归是很常见的一种回归,线性回归可以用来预测或者分类,主要解决线性问题。

1)线性回归中的“线性”描述的对象是谁?

线性指的是假设函数(如h(x)=θ0 + θ1x)中自变量x(即输入数据集)的系数θ的性质,即θ是线性的。

2)线性回归中的“回归”描述的对象是谁?

指假设函数h(x)和实际的数据集拟合度最高

3)多元线性回归中的“多元”描述的对象是谁?

多元表示训练数据集中每组用例有多个特征变量,

比如含有n元表示训练用例中有n个特征变量,

如第一组n元训练用例可表示为:(x11,x12,x13,……,x1n,y1),xij表示第i组用例中的第j个特征变量

假设函数

hypothesis function,记做h(x)

机器学习中被训练的函数就是假设函数。

简单线性回归的假设函数和多元线性回归的假设函数不同,可详见下面内容。

代价函数

cost function,记做J(θ)。

用来度量假设函数的拟合度、精确度。

J(θ)函数值越小表示h(x)预测出来的数据集与实际数据集的偏差越小。

所以J(θ)函数值最小时的元祖(θ0θ1,……,θm),此元祖对应的h(x)是拟合度最高的假设函数。

简单线性回归

简单线性回归只有一个自变量x。

简单线性回归的假设函数

    h ( x ) = θ0+θ1x

这个函数图形是一条直线,称为回归线,h(x)是在一个给定特征值x下的y的期望值

简单线性回归的代价函数


很明显,此代价函数主要计算任务就是计算y的方差的均值。

这个均值越小,说明拟合度越高。而计算(θ0,θ1)的过程,变成了求代价函数J(θ0,θ1)最小值的过程。从而转变成了高等数学问题中求函数最小值时对应的坐标的问题,就是这么个思路。

简单线性回归的梯度下降算法的推导公式

θ公式的推导过程详见:简单线性回归的梯度下降中θ的推导过程



多元线性回归

多元指的是每个训练用例中有多个特征变量x

使用xi表示训练集中的第i组训练用例

使用xij表示第i组用例中的第j个特征变量x

使用n表示每组用例的特征数,所以每组用例的元祖是(x1, x2, ……,xn)。

使用m表示训练用例的总数,即训练数据集有m组训练用例

数据训练集的整体如下所示:

(X11,X12,X13,……,X1n,y1)

(X21,X22,X23,……,X2n,y2)

                ……

(Xi1,Xi2,Xi3,……,Xin,yi)

                ……

(Xm1,Xm2,Xm3,……,Xmn,yn)

多元线性回归的假设函数

h(Xi) = θ0 + θ1Xi1+θ2Xi2+……+θnXin,其中i=1,……,m,表示训练数据集有m个训练用例,每个训练用例有n个特征变量x。

多元线性回归的假设函数的矩阵乘法表示方式


多元线性回归的梯度下降算法的推导公式

每个θ的推导过程,和简单线性回归的梯度下降中的θ的推导过程一模一样

详见:简单线性回归的梯度下降中θ的推导过程


(end)

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值