线性回归问题

今天在阅读机器学习线性回归问题时,作为一个初学者产生了很多疑问。我下面将我的一些思考总结如下,并不是从方法推导和技术使用角度来解析,只是从基础概念上进行一些深度理解:
线性回归模型为:y(x)=WTx+ε=Dj=1wjxj+ε (1).
其中ϵ 是个剩余误差,假设它服从的是高斯分布,然后因此就将线性回归模型和高斯模型联合起来,获取公式如下:
p(y|x,θ)=N(y|μ(x),σ2(x))

到这里我是完全不懂。于是查阅了很多资料,首先听到的诸多线性回归,逻辑斯蒂回归神马的,回归到底是个什么意思?其次这个 ϵ 剩余误差又有什么样的意义?第三,为什么剩余误差服从高斯分布,整个线性回归模型就能写成高斯分布的模型?最后,这里的线性到底指的是什么?接下来,我将针对这四个问题谈一谈自己的理解。

1.回归指的是什么意思?
第一次看到回归,搜索大脑能想到的就是南北回归线。但这里的回归和南北回归线根本联系不到一起。
有一条假设的或者说是理论的线性或非线性模型,然后通过回归的方法,则是将现有的数据向假设的模型拟合接近。这个就是回归。
举例来说,当用数据来得到一个图像时,此时还和真实图像之间不一样,当图像本身的数据点越来越多的时候那么得到的图像就回到真实图像中了。
我的理解是,用一定的模型方法,学习出真正的不同变量中间的依赖关系,即数据真实的数据模式。还原真实的数据模式即为回归。

2 ϵ 是剩余误差,该如何理解
我们把(1)式进行合适的转换:
ϵ=fxDj=1ωjxj.(2)
这样就更容易理解,也就是我们只简单的用线性模型来拟合真实的变量间的关系,并不能达到完美的解释。所以 ϵ 就弥补了用模型难以解释的那一部分,即模型外的未知因素的影响。
3 为什么剩余项符合高斯分布,整个线性模型就符合高斯分布,我想有了2中的公式转化应该就很容易理解了吧,这是纯粹的数学知识。
4 这里的线性到底指的是什么?
关于线性模型中的线性有三种说法:
(1)变量 和 参数都是线性的
(2)参数是线性的,但变量不是线性的
(3)变量是线性的,而参数不是线性的。

而我们这里所说的线性模型主要是针对(2)而言的。所以只要参数是线性的这类问题,我们对变量无论是转成指数,幂指数等任意一种函数形式,都可以用线性模型来解决问题,因为我们要学习的是这个参数向量,而变量值是确定的。

阅读更多
个人分类: 统计学习
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭