机器学习(九)-逻辑回归理论篇

本文介绍了逻辑回归的基本概念及其在二分类问题中的应用。通过回顾线性回归,讨论了为什么不能直接使用线性回归解决二分类问题,并引出了Sigmoid函数作为解决方案。同时,解释了逻辑回归的决策边界,包括线性和非线性情况。最后,探讨了逻辑回归的损失函数——交叉熵,并解释了为什么使用梯度下降进行参数优化。
摘要由CSDN通过智能技术生成

1 要点知识回顾

  • 集合的划分
    训练集(训练集,验证集(交叉验证)/开发集),测试集

  • 机器学习的分类

    • 有监督的机器学习:线性回归(提供了y值)
    • 无监督的机器学习: KNN算法(没有提供y值)
  • 线性回归

    • 线性回归: y = ax +b
    • 多元线性回归: y = w0x0 + w1x1 + … + wnwn
    • 多项式回归: y = w0x0 + w1x1 + w2x0**2 + w3x1**2

2 逻辑回归

2.1 什么是逻辑回归?

逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。

2.2 逻辑回归解决什么问题?

  • 需求: 根据肿瘤大小预测是良性肿瘤还是恶性肿瘤?
    有家医院希望我们能开发出一款分类器,可以通过数据分析出一块肿瘤到底是良性的,还是恶性的?
    • 0: 负例 “Negative Class” (良性肿瘤)
    • 1: 正例 “Positive Class” (恶性肿瘤)
      在这里插入图片描述
  • 分析:
    • 如果只有前8个点, 则通过第一条直线拟合数据模型, 也就是当肿瘤大小小于10平方毫米时,则认为是良性肿瘤;
    • 如果有9个点, 则通过第二条直线拟合数据模型, 也就是当肿瘤大小小于13平方毫米时,则认为是良性肿瘤;但真实的数据显示11平方毫米已经是恶性肿瘤了, 因此传统的线性回归并不能成功的拟合数据模型.

在这里插入图片描述

在这里插入图片描述

  • 总结
    当我们要做二分类的时候,我们一般只希望得到两个值 y = 0 或 1。但是, 线性回归得到的值是在一个范围内的连续值,而且可能远 > 1 或远 < 0。这样会给分类带来困难。 我们希望的值域:
    在这里插入图片描述

2.3 如何解决问题? —更新模型

如果想要模型的y值坐落在[0,1]的区间上那么就需要使用sigmoid函数:
在这里插入图片描述

在这里插入图片描述

  • g(x)的意义就是当输入x后,预测y=1的可能性有多高?

图形显示如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值