【Machine Learning】L3 笔记
1 多项式拟合
多个特征之后的情况,拟合不好就会出现underfitting 和 overfitting
2 参数型学习算法与非参数型学习算法
3 概率角度解释线性回归中参数θ求解
参数估计:极大似然估计法
4 Classification 二元分类器 y = {0,1}
第一个分类算法 Logistic regression
感知器算法
1、多项式拟合
特征不止一个的时候,或者为了更好的预测拟合,我们需要更多的特征(可以自己构建特征).要选取合理的特征,多了不行,少了也不行,要确保算法准确。
2 参数型学习算法与非参数型学习算法
Parametric Learning Algorithm
θ’s - find set of Parameter,要求解参数的值
Non-Parametric Learning Algorithm
no of Parameters grows with m(样本数)
【经典算法】:locally weighted linear regression (LWR) 局部加权回归(LOESS)
(此算法Andrew说已经应用在直升机的控制中,简单的规则可以制造不同复杂的行为现象【模型思维中的生命游戏-细胞自动机】)
- assuming there is sufficient training data, makes the choice of features less critical
- 算法思想:简单的说,对于复杂的类似于多项式的函数数据,我们通过选择一个数据点附近的数据来进行拟合,Fit θ to minimise the Cost Function J(θ),只不过这里要加入权值,这个权值是e的指数函数,w(i) = exp(-(x(i)-x)^2/(2·T^2));这个T是控制参数,如同高斯分布中的σ.【也就是在LR线性回归中计算J(θ)中加入权值,而计算的样本数据也是一个确定数据点附近的数据】这样就可以把总的数据分割,一段一段地来拟合,使得拟合的效果好。
Parametric Learning Algorithm and Non-Parametric LA
- Para LA 得到固定的有限的参数θ, 将这些参数保留下来, 然后进行预测。(之后就再也用不到训练样本了,然后可以不用保留训练样本了)
- Non-Para LA:相反,因为我们是局部计算,所以要保留训练样本,在每一次预测的时候,都要根据实际预测的点来选择样本,进行参数θ的计算。
3 概率角度解释线性回归中参数θ求解
极大似然估计法:(参数估计法)
- 注意似然函数要是递增的
- 各个参数要是独立同分布的
这里解释了Least-squares regression中为什么要使Cost Function最小化,原来是为了使似然函数最大,得到θ的参数估计值。
【Note】
4 Classification 二元分类器
Logistic Function/ Sigmoid Function
- 为什么选择这个函数,将在下讲L4中讲到
Hypothesis h
为什么不同的迭代,结果是一样的呢?下讲中的广义线性模型(GLM)会讲到。
图中推导
5 感知器算法
1、Probabilistic interpretation(似然函数,极大似然估计)
2、Locally Weighted linear regression
3、二元分类:Logistic Regression
4、感知器算法The Perceptron Learning Algorithm
感谢Andrew老师的精彩课程
2014.12.30