Classification
Logistic Regression
---分类
Hypothesis Representation-------
h(x) = p(y=1|x;符号)
Decision Boundary----判断边界
判断边界 == h(x)
Cost Function ----logistic Regression
如果在logistic regression用linear regression的J(0)会导致左图的non-convex,最终会到达global minimum 但会很颠簸
在这里logistic regression的cost function =
使用梯度下降(Gradient Descent)时公式还是和linear的一样,只是替换了h(x)
进行向量化后
Advanced Optimization 高级优化
BFGS . .L-BFGS调用方法
Multiclass classification one-vs-all
多类(Multiclass)能最终分解为二元来来分析 最终求
Overfitting --过拟合
对应的underfitting---欠拟合
图1---欠拟合 图2---right 图3---过拟合
过拟合存在问题:很完美契合training set数据但却不能很好地预测
太多的feature和太少的训练集会导致过拟合
overfitting-----high variance 高方差
underfitting ---- high bias 高偏差
Addressing overfitting
引入正则化
Regularization
-----------cost Function
对于该式子,为了尽量消除 的影响可以让θ3和θ4无限接近与0,这样其带来的影响会大大降低,根据这种思想可以推出regularized cost function
注意:这里的这里的λ和其后面的θ参数是用来平衡整个cost function的
这个部分的目的是 fit well
而这一部分则是 keep θ small by using λ
这里λ称为 regularization parameter
这里第二个式子的θ只能取值1,2,3,4.....n不能取值为θ0
当λ增大时,θ对应变小,反之亦然 ,所以当λ无限大的时候,θ趋近于0,代入整个式子时,就约等于θ0---一条直线导致underfitting
-----regularized linear regression
cost Function 如上
对于梯度下降来说,求θ分为两部分θ0,和其他θj
θ0保持和普通梯度下降一致
θj则需要加上λθj/m
在这里式子可以化简变成第二个θj ------ 因为学习率α小于1,样本数量m大于1,所以1-αλ/m <1 一一般来说总是稍微小于1,如0.99
相当于每次迭代时θj都减少一点点
-------regularized Normal equation
下面那个是正规化后的正规方程。
在这里一般的正规方程,当样本数量m<=特征n时会出现non-invertibility不可逆(m<n不可逆,m=n时可能不可逆),就是说没有逆矩阵,一般来说在octave时可以用pinv来生成伪逆矩阵(inv用来生成逆矩阵)。在这里regularization可以解决没有逆矩阵的问题。
------regularized logistic regression
与linear regression类似在h(x)后面加入 regularization parameter
logistic regression和linear regression的正规化很类似,就只有h(x)不一样