线性回归中oracle性质,回归(一):线性回归

回归

通常对于一组特征数据和其标记值:

math?formula=(x_1%2C%20y_1)%2C%20(x_2%2C%20y_2)%2C%20...%2C%20(x_n%2C%20y_n)%E2%80%8B,在使用特征值

math?formula=x_i%E2%80%8B

math?formula=y_i%E2%80%8B进行预测时,根据习惯,如果

math?formula=y_i%E2%80%8B是连续的,则称这种操作或者技术为回归;如果

math?formula=y_i%E2%80%8B是离散的,则通常称为分类。

线性回归

以根据房屋的属性来预测价格为例,假设房屋的价格与房屋的面积和居室的数目有关,如下表所示;

Living area(

math?formula=feet%5E2)

bedrooms

Prices

2104

3

400

1600

3

330

2400

3

369

1416

2

232

3000

4

540

把房屋的面积记为特征

math?formula=x_1%E2%80%8B,把居室的数目记为特征

math?formula=x_2%E2%80%8B,价格记为

math?formula=y%E2%80%8B。我们猜测

math?formula=x_1%2C%20x_2%E2%80%8B

math?formula=y%E2%80%8B之间,满足关系:

math?formula=y%20%3D%20%5Ctheta_0%20%2B%20%5Ctheta_1x_1%20%2B%20%5Ctheta_2x_2

因此我们可以建立模型:

math?formula=h_%7B%5Ctheta%7D(x)%20%3D%20%5Ctheta_0%20%2B%20%5Ctheta_1x_1%20%2B%20%5Ctheta_2x_2%E2%80%8B

我们也可以把上式写成向量的形式

math?formula=h_%7B%5Ctheta%7D(x)%20%3D%20%5Csum_%7Bi%3D0%7D%5E%7Bn%7D%5Ctheta_ix_i%20%3D%20%5Ctheta%5ETx%E2%80%8B

其中,

math?formula=%5Ctheta是参数,

math?formula=x是我们的训练数据和检测数据中的特征值。实际上,

math?formula=%5Ctheta是未知量,我们的目标就是通过训练数据调整

math?formula=%5Ctheta,来使得输出的结果更接近真实值。

在将训练的数据中的

math?formula=x_1代入,都会得到一个输出

math?formula=%5Ctheta%5ETx_i,这个值和真实的

math?formula=y_i之间会存在一个随机的误差

math?formula=%5Cepsilon_i

math?formula=y%5E%7B(i)%7D%20%3D%20%5Ctheta%5ETx%5E%7B(i)%7D%20%2B%20%5Cepsilon%5E%7B(i)%7D

我们假定所有的房屋都是独立的,我们可以认为,误差的存在可能是房屋中的价格还会受到一些其他的因素的影响,而这些因素在建模的过程中没有体现,这些细枝末节可能使得房屋的价格有一些震荡。如果把这些因素看成随机变量,当足够多的随机变量叠加之后,根据中心极限定理,形成的分布就是正态分布。因此:

误差

math?formula=%5Cepsilon%5E%7B(i)%7D(1%5Cleq%20i%20%5Cleq%20m)是独立同分布的,服从均值为0,方差为某定值

math?formula=%5Csigma%5E2%E2%80%8B的高斯分布。

我们做一些推导:

根据高斯分布:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值