学习知识点概要
- LogisticRegression在简单数据集上的分类
- LR在鸢尾花(iris)数据集上的分类
- 从sklearn中导入iris数据集
- pandas库(数据分析和处理工具)的使用
- 函数的使用方法
学习内容
本节利用 LR model做分类任务,在二分类和多分类任务上均可使用LR model。分类的结果通过sigmoid函数映射为[0,1]的数,很好的反映出预测结果的不同概率,取概率高的Label即为正确预测结果,使用的命令为clf.predict_proba()
返回的是对应每个Label的概率。也可使用命令clf.predict
直接预测样本的分类结果,而不是返回每个Label的概率取值。
使用命令plt.contour(x,y,z)
画出决策边界(等高线:三维图像在二维空间的投影)
学习问题与解答
- LR model 的 loss function
LR 采用的是交叉熵损失函数(学习准则),并使用梯度下降法(优化算法)来对参数进行优化。其风险函数为
R ( w ) = − 1 N ∑ n = 1 N ( p r ( y ( n ) = 1 ∣ x ( n ) ) log y ^ ( n ) + p r ( y ( n ) = 0 ∣ x ( n ) ) log ( 1 − y ^ ( n ) ) ) = − 1 N ∑ n = 1 N ( y ( n ) log y ^ ( n ) + ( 1 − y ( n ) ) log ( 1 − y ^ ( n ) ) ) \begin{aligned} \mathscr R (w)&=-\frac{1}{N}\sum_{n=1}^{N}\left(p_{r}(y^{(n)}=1|x^{(n)})\log \hat y^{(n)}+p_{r}(y^{(n)}=0|x^{(n)})\log(1- \hat y^{(n)})\right)\\ &=-\frac{1}{N}\sum_{n=1}^{N}\left(y^{(n)}\log \hat y^{(n)}+(1-y^{(n)})\log(1- \hat y^{(n)})\right) \end{aligned} R(w)=−N1n=1∑N(pr(y(n)=1∣x(n))logy^(n)+pr(y(n)=0∣x(n))log(1−y^(n)))=−N1n=1∑N(y(n)logy^(n)+(1−y(n))log(1−y^(n))) - 风险函数
R
(
w
)
\mathscr R(w)
R(w)关于
w
w
w的偏导数为
∂ R ( w ) ∂ w = − 1 N ∑ n = 1 N x ( n ) ( y ( n ) − y ^ ( n ) ) \frac{\partial{\mathscr R(w)}}{\partial{w}}=-\frac{1}{N}\sum_{n=1}^{N}x^{(n)}(y^{(n)}-\hat y^{(n)}) ∂w∂R(w)=−N1n=1∑Nx(n)(y(n)−y^(n))
通过下式来迭代更新参数
w t + 1 ← w t − α ∂ R ( w ) ∂ w w_{t+1}\leftarrow w_{t}-\alpha\frac{\partial{\mathscr R(w)}}{\partial{w}} wt+1←wt−α∂w∂R(w)
学习思考与总结
-
风险函数 R ( w ) \mathscr R(w) R(w)是关于参数 w w w的连续可导凸函数,因此除了梯度下降法之外,LR还可以用高级的优化方法(比如牛顿法)来进行优化。
-
LR在二分类中用到了sigmoid函数,多分类中是softmax函数,当softmax函数用于二分类问题的时候,这两个的区别?
-
直接用softmax函数进行多分类和用sigmoid函数二分类组合进行多分类的区别,各自适用于什么样的场景?
-
LR多分类的目标函数是什么?
-
逻辑回归模型的优劣势:
- 优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;
- 缺点:容易欠拟合,分类精度可能不高
-
箱型图:利用箱型图我们也可以得到不同类别在不同特征上的分布差异情况。
-
不同特征与标签组合的散点可视化:不同的特征组合对标签的散点分布,以及区分能力。
特征的区分能力越强则说明该特征对预测结果的影响越大,反之则越小(必要时可剔除特征区分能力弱的特征)