Logistic Regression(逻辑斯蒂回归)
Classification(分类问题)
使用1和0,或者positive和negative表示事件的相对立的两种可能情况。(这里指二元分类问题)
e.g.
垃圾邮件与非垃圾邮件等
Logistic Regression Model(逻辑斯蒂回归模型)
Sigmoid Function(又Logistic Function)
g(z) = 1/(1+e-z):值的范围属于[0,1]
Hypothesis Output(预测函数)
hθ(x) = g(θTx), g(θTx) = 1/(1+e-θTx),其中
Decision boundary(决策边界)
Cost Function(损失函数)
J(θ) = (1/m) Σ1,m(1/2)(hθ(x(i)) - y(i))2
但是上述函数不是凸函数,存在多个极值点,为此我们转换如下:
即:
Simplified Cost Function(简化损失函数)
参数优化
Gredient Decent(梯度离散下降)
参数更新与表达
Advanced Optimization
Multu-class Classfication:One vs All
Regularization(正则化)
Overfitting & Underfitting(过度拟合与欠拟合)
相关概念
overfitting--过度拟合--high varience:拟合线与点重合比较好,但是对未来的数据点预测性极差
just right--拟合刚好
underfitting--欠拟合--high bias:拟合不充分
e.g.
Adressing Overfitting(过度拟合的解决方法)
1.删除部分特质,可以使用人为选择或者采用模型选择算法,这种方法会丢失信息,有时会导致拟合失败
2.正则化,降低特征的值或维度,实际表现较好
Regularization
Cost Function(含正则化的损失函数)
Regularized Linear Reguression(正则化的线性回归)
损失函数
梯度下降
正规方程
Regularized Logistic Reguression(正则化的逻辑斯蒂回归)
损失函数
梯度下降