前言():
{
上一章中提到了Bayes的相关知识,但我感觉我理解的还是太浅薄了。不过本章到是又涉及到了Bayes,我也可以加深一下理解。
还有,之前我没有记录关于公式推导的思考,本次我会尽量多写点关于公式推导的内容。
}
正文():
{
本章有以下几部分内容:
线性回归模型;最大后验估计;最小二乘法;最小描述长度原则;和固定样本大小考虑。
线性回归模型():
{
一种理解(或处理)统计数据的方式,其把统计数据中一部分看作是自变量(independent variable)或叫回归元(regressor,有叫回归量的也有叫回归因素的,之后我会统一用回归元),其不受别的变量影响;其他部分看作是因变量(dependent variable)或叫响应(response),其受到其他变量的线性影响。
例如书中描述的,用线性回归模型来理解线性分类器的输入和输出,其输入为自变量,输出为因变量。很明显,输出是由输入和权值决定的,但输入却是独立存在的,不受输出和权值的影响。
}
最大后验估计():
{
即把后验概率最大的权值认为分类器的权值。
书中给出的后验概率如下:
其中x为输入,w为权值,d为输出。
Pw(w)是指先验概率,即之前的经验。
PD(d)书中叫证据,就是本次学习中已经有的结果。
这和上次的Bayes公式很像:
可以看到不同的是在条件概率中多了x,这就代表在x已知情况下(即当前一次的情况下,其中输入x是已知的)的概率。
接下来讨论后验概率公式右边的3个参数。
首先,由于PD(d)是常数,所以就不用考虑它了。
最大拟然估计(简介):
{
书中给出了一个拟然函数的公式:
w的最大拟然估计就是把使拟然函数最大的w,认为分类器的w。
打个比方:
设A代表某个人的身高大于180cm,B代表这个人是男性。
即拟然函数l(A|B)=P(B|A)
其中,当A为“真”时,P(B|A)最大。即此时A的最大拟然估计的值为“真”。
}
接下来讨论拟然函数