文章目录
1 要点知识回顾
-
集合的划分
训练集(训练集,验证集(交叉验证)/开发集),测试集 -
机器学习的分类
- 有监督的机器学习:线性回归(提供了y值)
- 无监督的机器学习: KNN算法(没有提供y值)
-
线性回归
- 线性回归: y = ax +b
- 多元线性回归: y = w0x0 + w1x1 + … + wnwn
- 多项式回归: y = w0x0 + w1x1 + w2x0
**
2 + w3x1**
2
2 逻辑回归
2.1 什么是逻辑回归?
逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。
2.2 逻辑回归解决什么问题?
- 需求: 根据肿瘤大小预测是良性肿瘤还是恶性肿瘤?
有家医院希望我们能开发出一款分类器,可以通过数据分析出一块肿瘤到底是良性的,还是恶性的?- 0: 负例 “Negative Class” (良性肿瘤)
- 1: 正例 “Positive Class” (恶性肿瘤)
- 分析:
- 如果只有前8个点, 则通过第一条直线拟合数据模型, 也就是当肿瘤大小小于10平方毫米时,则认为是良性肿瘤;
- 如果有9个点, 则通过第二条直线拟合数据模型, 也就是当肿瘤大小小于13平方毫米时,则认为是良性肿瘤;但真实的数据显示11平方毫米已经是恶性肿瘤了, 因此传统的线性回归并不能成功的拟合数据模型.
- 总结
当我们要做二分类的时候,我们一般只希望得到两个值 y = 0 或 1。但是, 线性回归得到的值是在一个范围内的连续值,而且可能远 > 1 或远 < 0。这样会给分类带来困难。 我们希望的值域:
2.3 如何解决问题? —更新模型
如果想要模型的y值坐落在[0,1]的区间上那么就需要使用sigmoid函数:
- g(x)的意义就是当输入x后,预测y=1的可能性有多高?
图形显示如下: