Coursera 斯坦福吴恩达机器学习课程笔记 (2)

原创 2018年04月15日 09:01:28

看了课程一周后发现忘光了,决定做一个笔记用作复习。如果涉及到侵权问题请联系我,我会立马删除并道歉。

同时,禁止任何形式的转载,包括全文转载和部分转载。如需使用请联系本人 422892137@qq.com。如若发现侵权行为,我学过知识产权法的,嘿嘿


第三周 Logistic Regression

Classification

常见的分类问题有:

(1)spam(2)肿瘤(3)信用卡诈骗

例子:分类肿瘤良性与否

下图1表示良性,0表示恶性。我们有八个实例(X)分布如下。得到的hypothesis 为蓝色的这个(这只是一个假设,实际上线性回归在这里并不合适,举个例子,我们假设有几个outliers, 那线性回归就崩了)。

此时,我们使用threshold来进行分类:当x值大于threshold投影到的红点,我们预测y =1;当值小于threshold,我们认为y =0。



Logistic Regression Model

logistic regression是一个容易让人混淆的概念(因为其中带有regression字眼),但是其实它是应用于分类问题的,我们有: 0<=hθ(x)<=1(与之相比,regression的hypothesis是可以在任意范围的)


我们上周上上周讲的线性回归是A式,逻辑回归模型使用的是B式(两个x相同,大小不一是因为写第二个式子的时候控制不住麒麟臂了)。B中的g(z)被称为sigmoid function/logistic function。


例子:假设我们有hypothesis: hθ(x) = g(z), where z=θ^T*X。假设当肿瘤为良性时,y =1; 当肿瘤为恶性时, y=0。通过计算我们得到:hθ(x)=0.7=P(y=1|x:θ),即:该肿瘤有70%的概率为良性。通过计算1-hθ(x)=0.3=P(y=0|x:θ),我们也可以得到该肿瘤有30%的概率为恶性。

这里有一个疑惑,这个分类问题的结果应该是0 & 1 二项的,为什么会需要概率来阐释它的结果呢?


在我的课程《统计建模》中,有着同样的概念:link function(见下图)。在GLM中,我们的解释变量和反应变量存在着两层关系:对于反应变量f(x),解释变量x与其在response scale上存在着非线性关系;对于link function g(x),解释变量x与其在link scale上存在线性关系。个人感觉这个概念和上段逻辑回归提到的概念很相似。他们的关系应该就属于数据挖掘和机器学习的关系:数据挖掘和机器学习有着众多重复的概念,甚至是机器学习的监督学习和非监督学习,数据挖掘中都有着相似的理论,数据挖掘从更加偏向统计的角度来处理问题,而机器学习更偏向于计算机角度。但是这里要注意的是,我们对hypothesis使用逻辑回归是为了让其范围处于[0,1]之间;而我们对模型使用link function是为了更好的拟合模型或者处理模型假设中的一些问题。



Decision Boundary

这里我们将结合上面的知识用一个肿瘤的例子来解释什么是decision boundary。

下图黑色和绿色公式是我们将要使用的logistic function,蓝色曲线是其函数。我们使用threshold=0.5来分类良性肿瘤(y=1)和恶性肿瘤(y=0)。从蓝色曲线可知,当z>=0时,y =1;当z<0时,取y=0。此时z = θ0+θ1x1+θ2x2,即当-3+x1+x2>=0时,y=1;同理x1+x2<3时,y = 0。右下角坐标图中已标出黑色线性函数x1+x2=3,此线性函数表示z=0,被称作decision boundary。在decision boundary左下侧,是y=0分类,右上侧为y=1(这里最好不要靠现有的数据来理解,应该理解为函数的左右侧/上下侧)。当然,z的取值不可能永远都是线性的,面对非线性的问题时,我们可以结合高中学过的椭圆、圆等知识,构造“圆内(y=0)”、“圆外(y=1)”等概念来完成z>0, z<=0(我觉得等号随意放吧,在哪边都不是很重要)。

这里需要意识到的是

(1)通常给定的数据不会这么完美,良性、恶性肿瘤恰好清晰地分为两组。在未来的分析中,更多可能是混淆不清界限模糊的,要留意如何处理

(2)现实中的covariate/features数量往往远远超过了两个(x1,x2),现在理解可以依靠2D、3D坐标图来理解,但是当维度上升到难以用图标表示时,又该如何理解呢?所以要建立一个自己的知识体系:covariate的数量是可变的,但是游戏的应用规则不会改变,要将知识抽象出来。

(3)The decision boundary is a property, not decided by a trading set. (引用自吴恩达课上原话)界限并不是凭借训练集来定夺的,试想,如果训练集变了,那么界限也变了,这是不合理的。界限是依靠训练集确定的parameters来确定的,这样使其具有一定的稳定性。




Coursera Stanford 机器学习 笔记文章链接

此系列笔记对应于Coursera上的Stanford机器学习课程文章链接: 1.《机器学习笔记01:线性回归(Linear Regression)和梯度下降(Gradient Decent)》 2...
  • Artprog
  • Artprog
  • 2016-04-29 12:09:43
  • 5050

斯坦福大学吴恩达Coursera机器学习公开课中文笔记

  • 2016年03月28日 13:37
  • 8.2MB
  • 下载

吴恩达Coursera机器学习课程笔记-定义分类

What is Machine Learning
  • DylanHUANG1
  • DylanHUANG1
  • 2017-11-29 13:51:20
  • 136

斯坦福机器学习: 网易公开课系列笔记(一)——课程简介

斯坦福机器学习: 网易公开课系列笔记(一)——课程简介      最近学习了一下网易公开课上由Andrew Ng于08年在斯坦福大学开办的机器学习课程,受益颇深。作为一个刚入门的学习者,可以说吴恩达讲...
  • qsczse943062710
  • qsczse943062710
  • 2017-02-17 09:59:29
  • 1674

coursera-斯坦福-机器学习-吴恩达-第3周笔记-逻辑回归

coursera-斯坦福-机器学习-吴恩达-第3周笔记coursera-斯坦福-机器学习-吴恩达-第3周笔记 分类 和 模型表示 1分类的概念 Classification 2 分类模型表示 3 分类...
  • u012052268
  • u012052268
  • 2017-11-28 11:34:06
  • 1506

斯坦福机器学习公开课笔记

初步介绍 监督式学习: 给定数据集并且知道其正确的输出应该是怎么样的,即有反馈(feedback),分为 回归 (Regressioin): map输入到连续的输出值。分类 (Classifica...
  • u013573047
  • u013573047
  • 2016-05-31 10:18:21
  • 1199

Coursera吴恩达机器学习课程 总结笔记及作业代码——第7周支持向量机

1.1 Optimization objective先回顾一下逻辑回归的相关概念 hθ(x)=11+e−θTxh_\theta(x) = \frac{1}{1+e^{-\theta^T x}} I...
  • qq_27008079
  • qq_27008079
  • 2017-05-31 21:42:33
  • 8766

coursera吴恩达机器学习全套教学视频(中英文字幕)及全套课程资料_百度云链接

  • 2018年03月24日 23:28
  • 53B
  • 下载

Coursera吴恩达机器学习课程 总结笔记及作业代码——第6周有关机器学习的小建议

1.1 Deciding what to try next当你调试你的学习算法时,当面对测试集你的算法效果不佳时,你会怎么做呢? 获得更多的训练样本? 尝试更少的特征? 尝试获取附加的特征? 尝试增加...
  • qq_27008079
  • qq_27008079
  • 2017-05-21 15:58:40
  • 5785

2014斯坦福大学机器学习mkv视频(吴恩达)

  • 2017年10月26日 12:08
  • 48B
  • 下载
收藏助手
不良信息举报
您举报文章:Coursera 斯坦福吴恩达机器学习课程笔记 (2)
举报原因:
原因补充:

(最多只允许输入30个字)