Task1:机器学习算法(一): 基于逻辑回归的分类预测

学习知识点概要

  • LogisticRegression在简单数据集上的分类
  • LR在鸢尾花(iris)数据集上的分类
    • 从sklearn中导入iris数据集
  • pandas库(数据分析和处理工具)的使用
  • 函数的使用方法

学习内容

本节利用 LR model做分类任务,在二分类和多分类任务上均可使用LR model。分类的结果通过sigmoid函数映射为[0,1]的数,很好的反映出预测结果的不同概率,取概率高的Label即为正确预测结果,使用的命令为clf.predict_proba()返回的是对应每个Label的概率。也可使用命令clf.predict直接预测样本的分类结果,而不是返回每个Label的概率取值。
使用命令plt.contour(x,y,z)画出决策边界(等高线:三维图像在二维空间的投影)

学习问题与解答

  • LR model 的 loss function
    LR 采用的是交叉熵损失函数(学习准则),并使用梯度下降法(优化算法)来对参数进行优化。其风险函数为
    R ( w ) = − 1 N ∑ n = 1 N ( p r ( y ( n ) = 1 ∣ x ( n ) ) log ⁡ y ^ ( n ) + p r ( y ( n ) = 0 ∣ x ( n ) ) log ⁡ ( 1 − y ^ ( n ) ) ) = − 1 N ∑ n = 1 N ( y ( n ) log ⁡ y ^ ( n ) + ( 1 − y ( n ) ) log ⁡ ( 1 − y ^ ( n ) ) ) \begin{aligned} \mathscr R (w)&=-\frac{1}{N}\sum_{n=1}^{N}\left(p_{r}(y^{(n)}=1|x^{(n)})\log \hat y^{(n)}+p_{r}(y^{(n)}=0|x^{(n)})\log(1- \hat y^{(n)})\right)\\ &=-\frac{1}{N}\sum_{n=1}^{N}\left(y^{(n)}\log \hat y^{(n)}+(1-y^{(n)})\log(1- \hat y^{(n)})\right) \end{aligned} R(w)=N1n=1N(pr(y(n)=1x(n))logy^(n)+pr(y(n)=0x(n))log(1y^(n)))=N1n=1N(y(n)logy^(n)+(1y(n))log(1y^(n)))
  • 风险函数 R ( w ) \mathscr R(w) R(w)关于 w w w的偏导数为
    ∂ R ( w ) ∂ w = − 1 N ∑ n = 1 N x ( n ) ( y ( n ) − y ^ ( n ) ) \frac{\partial{\mathscr R(w)}}{\partial{w}}=-\frac{1}{N}\sum_{n=1}^{N}x^{(n)}(y^{(n)}-\hat y^{(n)}) wR(w)=N1n=1Nx(n)(y(n)y^(n))
    通过下式来迭代更新参数
    w t + 1 ← w t − α ∂ R ( w ) ∂ w w_{t+1}\leftarrow w_{t}-\alpha\frac{\partial{\mathscr R(w)}}{\partial{w}} wt+1wtαwR(w)

学习思考与总结

  • 风险函数 R ( w ) \mathscr R(w) R(w)是关于参数 w w w的连续可导凸函数,因此除了梯度下降法之外,LR还可以用高级的优化方法(比如牛顿法)来进行优化。

  • LR在二分类中用到了sigmoid函数,多分类中是softmax函数,当softmax函数用于二分类问题的时候,这两个的区别?

  • 直接用softmax函数进行多分类和用sigmoid函数二分类组合进行多分类的区别,各自适用于什么样的场景?

  • LR多分类的目标函数是什么?

  • 逻辑回归模型的优劣势:

    • 优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;
    • 缺点:容易欠拟合,分类精度可能不高
  • 箱型图:利用箱型图我们也可以得到不同类别在不同特征上的分布差异情况。

  • 不同特征与标签组合的散点可视化:不同的特征组合对标签的散点分布,以及区分能力。

特征的区分能力越强则说明该特征对预测结果的影响越大,反之则越小(必要时可剔除特征区分能力弱的特征)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值