1 分类与表达式
1.1 分类
例子:
Email:垃圾(span)邮件/非垃圾(not span)邮件
在线交易:是/否欺诈(Fraudulent)
肿瘤:恶性/良性
y∈{0,1}:{Negative,Position}→y∈{0,1,2,3,⋯}:多类
逻辑回归
0≤hθ(x)≤1
离散变量:
{0,1}
1.2 假设函数的表达式
hθ(x) 为 y=1 的概率值,当取输入为 x 时,
s.t. p{y=0|x;θ}+p{y=1|x;θ}=1
1.3 决策边界
hθ(x)=g(θ0+θ1x1+θ2x2)
假定 y=1 ,当 hθ(x)≥0.5 (阈值)
则 g(θTx)≥0.5 (阈值),即 θTx≥0 , θ0+θ1x1+θ2x2≥0
1.4 非线性决策边界
训练集 → (拟合) → 边界
2 逻辑回归模型
2.1 代价函数
J(θ)=1m∑i=1mCost(hθ(x(i)),y(i))
其中,
其中 J(θ) 为 凸函数。
2.2 简单的代价函数与梯度下降法
Cost(hθ(x),y)=−ylog(hθ(x))−(1−y)log(1−hθ(x))
→J(θ)=−1m[∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))]
Objection.→minθJ(θ)
梯度下降法
这一迭代形式与“ 线性回归”中的梯度下降法相同,但是“ h(x(i)) ”是不同的。其中, 特征缩放(归一化)一样适用。
2.3 高级优化方法
用于求解 min J(θ) ,收敛速度更快。
优化算法
- 梯度下降法(Gradient descent)
- 共轭梯度法(Conjugate gradient)
- 变尺度法(BFGS)
- 线性变尺度法(L-BFGS)
其中 2,3,4 优化算法无需学习参数 α ,且效率比梯度下降法更好。
3 多类别分类
方法: 一对多算法(One-vs-all)
例子:
Email foldering/tagging: work
maxih(i)θ(x)
当
y=1,2,3,…,n
,令
y=i
为
1
,其他为
4 解决过拟合问题
4.1 过拟合
解决方法
诊断,调试
- 减少特征数量(舍弃特征)
- 正则化(保留所有特征)
4.2 代价函数
hθ(x)=θ0+θ1x1+θ2x2+θ3x3+θ4x4
希望
θ3
,
θ4
尽量小,则
正则化
对某些参数增加惩罚项,其中针对所有参数的为
J(θ)=12m[∑i=1m(hθ(x(i))−y(i))2+λ∑j=1nθ2j]
其中,
λ
为正则化参数,
4.3 正则化的线性回归
J(θ)=12m[∑i=1m(hθ(x(i))−y(i))2+λ∑j=1nθ2j]
minθJ(θ)
梯度下降法
正规方程
当 (XTX)−1 不可逆时,可将其转化为可逆矩阵。
4.4 正则化逻辑回归
J(θ)=[−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))]+λ2m∑j=1nθ2j
minθJ(θ)
采用梯度下降法等优化算法求解。