自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 台湾大学林轩田《机器学习基石》学习笔记第16讲——Three Learning Principles

上节课我们讲了一个机器学习很重要的工具——Validation。这节课,我们主要介绍机器学习中非常实用的三个“锦囊妙计”。一、Occam’s RazorOccam’s razor is the problem-solving principle that the simplest solution tends to be the right one. When presented with...

2018-10-05 00:23:44 233

原创 台湾大学林轩田《机器学习基石》学习笔记第15讲—— Validation

上节课我们引入了augmented error,并学习如何通过加入regularizer来限制model complexity,并求得augmented error的最小值。从开始到现在我们已经学习到很多模型,但究竟哪些模型能得到更好的泛化能力呢?这节课我们将来探讨一下这个问题。一、Model Selection Problem对于一个简单的binary classification问题,模...

2018-10-04 15:00:18 335

原创 台湾大学林轩田《机器学习基石》学习笔记第14讲——Regularization

上节课我们介绍了过拟合发生的原因:excessive power, stochastic/deterministic noise 和limited data。并介绍了解决overfitting的简单方法。本节课,我们将介绍解决overfitting的另一种非常重要的方法:Regularization规则化。In general, regularization is a technique th...

2018-10-03 14:52:25 341

原创 台湾大学林轩田《机器学习基石》学习笔记第13讲——Hazard of Overfitting

上一节课中,我们介绍了通过non-linear feature transform把non-linear问题转化到linear问题进行学习,带来的代价是model complexity的增加。这节课我们将来看看complexity的增加带来的overfitting的问题。一、What is Overfitting?首先,看这样一个例子,红色线使用了更高阶的函数来进行学习,虽然所有的训练da...

2018-10-03 00:19:54 257

原创 台湾大学林轩田《机器学习基石》学习笔记第12讲—— Logistic Regression

上节课,我们学习了三种线性模型可以用来解决binary classification和multiclass classification问题。这节课我们将开始学习使用non-linear的模型来解决分类问题。一、Quadratic Hypothesis首先看一下linear hypothesis的局限性:当数据D是线性可分的,因为VC bound。理论上可以得到一条线保证有效分类,但实际...

2018-10-02 22:32:11 205

原创 台湾大学林轩田《机器学习基石》学习笔记第11讲——Linear Models for Classification

一、Linear Models for Binary Classification

2018-10-01 23:52:36 327

原创 台湾大学林轩田《机器学习基石》学习笔记第10讲—— Logistic Regression

一、Logistic Regression Problem仍然是心脏病预测的问题,可以根据病人的年龄、血压、体重等信息,来预测患者是否会有心脏病。这是一个二元分类问题,其输出y只有{-1,1}两种情况;那么如果我们要预测的是病人患心脏病的概率是多少呢,这时候输出y就不是简单的{-1,1}了,而是区间[0,1],我们把这个问题称为软性二分类问题(’soft’ binary classi...

2018-09-27 23:48:41 269

原创 台湾大学林轩田《机器学习基石》学习笔记第9讲——Linear Regression

从这节课开始就进入机器学习基石这门课的下半部分,之前的课程中介绍了linear classification的问题,这节课将继续介绍一个新的问题:Linear Regression(线性回归)。一、Linear Regression Problem首先,仍然以信用卡发放为例,这一次问题改为如何给发放信用卡的用户设定信用额度?这种输出空间不再是0或1,而是整个实数R的问题,我们称之为Lin...

2018-09-26 00:41:02 302

原创 台湾大学林轩田《机器学习基石》学习笔记第8讲——Noise and Error

上节课介绍VC Dimension的定义,从有限的dvcd_{vc}dvc​推导出VC bound,但其实基于Data Set是在没有Noise的情况下,本节课讨论如果Data Set本身存在Noise,那VC Dimension的推导是否还成立呢?一、Noise and Probabilistic Target仍然以银行是否给客户发放信用卡为例,说明Noise的来源主要有三类:nois...

2018-09-19 08:37:43 376

原创 台湾大学林轩田《机器学习基石》学习笔记第7讲——The VC Dimension

回顾一下上一节课主要讲了Theory of Generalization,泛化是指我们通过训练之后的机器学习,可以在新的data中也能很好地预测结果,即Ein约等于Eout。 为此前几次课引入了break point、growth function,上一节课还证明了成长函数M其实是有上限的。 本次笔记主要介绍VC Dimension的概念。同时也是总结VC Dimension与Ein(g)≈0...

2018-09-14 01:38:19 361

原创 台湾大学林轩田《机器学习基石》学习笔记第6讲——Theory of Generalization

上一节课我们使用了dichotomy来替代hypothesis set的个数,引入了mH(N)的概念,同时也提出了growth function的break point来表征其增长速度。上一节课还预测了针对2D perceptron 的成长函数mH(N)是多项式的猜想,那么这一课就一起来验证一下。 一、Restriction of Break Point 这是上一节课提到的四种不同gro...

2018-09-09 23:14:59 425

原创 台湾大学林轩田《机器学习基石》学习笔记第5讲——Training versus Testing

一、Recap and Preview 我们先来看一下基于统计学的机器学习流程图: 该流程图中,训练样本D和最终测试h的样本都是来自同一个数据分布,这是机器能够学习的前提;另外,训练样本D应该足够大,且hypothesis set的个数是有限的,这样根据霍夫丁不等式,才不会出现BadData,保证Ein≈Eout,即有很好的泛化能力;同时,通过训练,得到使Ein最小的h,作为模型最终...

2018-09-08 15:29:33 369

原创 台湾大学林轩田《机器学习基石》学习笔记第4讲——Feasibility of Learning

上节课,我们主要介绍了机器学习可以根据元素的不同情况分为不同的类型。其中,监督式学习、非监督式学习、半监督式学习和增强学习。本节课,我们将介绍机器学习的可行性,讨论问题是否可以使用机器学习来解决。一、Learning is Impossible? 机器学习一定是可行的吗? 第一个例子,我们可以找到不同的g(x),它同时满足所有训练样本D;但当有一个新的x输入时,应用不同的g(x),...

2018-09-06 19:51:18 418

原创 台湾大学林轩田《机器学习基石》学习笔记第3讲——Types of Learning

上一讲中,我们学到了如何使用机器学习来判断是非,即二元归类问题(Binary Classification Problems)。这一讲我们将从机器学习的几个要素中学到其他的一些机器学习类别。一、Learning with Different Output Space首先第一小节,根据机器学习的Output Space(y)的类别,就会存在有不同的机器学习的处理问题。1. Multicl...

2018-09-04 23:02:20 293

原创 台湾大学林轩田《机器学习基石》学习笔记第2讲——Learning to Answer Yes/No

上节课主要简述了机器学习的定义及其重要性,并用流程图的形式介绍了机器学习的整个过程: 本节课将继续深入探讨机器学习问题,介绍感知机Perceptron模型,并推导课程的第一个机器学习算法:Perceptron Learning Algorithm(PLA)。一、Perceptron Hypothesis Set 首先我们要解决一个问题:what hypothesis set can w...

2018-09-03 22:23:04 427

原创 台湾大学林轩田《机器学习基石》学习笔记第1讲——The Learning Problem

选择台湾大学林轩田《机器学习基石》这门课做为自己入门第一课,主要有如下几点考虑: 1.中文授课,英文资料,可以快速地理解并且对各种英文术语不陌生; 2.针对新入门者,特别是非计算机科班出身,课程通俗易懂; 3.Coursera上有时间安排作业及讨论,作为工作之余学习很方便;一、Course introduction 课程链接:https://www.coursera.org/l...

2018-09-01 22:00:32 400

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除