台湾大学林轩田《机器学习基石》学习笔记第1讲——The Learning Problem

最新推荐文章于 2018-10-05 00:23:44 发布

1021stones

最新推荐文章于 2018-10-05 00:23:44 发布

阅读量412

点赞数

分类专栏：林轩田机器学习笔记文章标签： Machine Learning 林轩田机器学习基石学习笔记

本文链接：https://blog.csdn.net/Stoneeeee/article/details/82291240

版权

林轩田机器学习笔记专栏收录该内容

16 篇文章 1 订阅

订阅专栏

本文是作者学习台湾大学林轩田教授《机器学习基石》课程的第一讲笔记，介绍了选择该课程的原因及课程核心内容。机器学习被定义为从数据中学习并提升表现的过程，涉及数据、算法、假说集合和学习模型等关键要素。同时，文章对比了机器学习与其他领域如数据挖掘、人工智能和统计学的关系，强调了扎实的数学基础对于深入学习机器学习的重要性。

摘要由CSDN通过智能技术生成

选择台湾大学林轩田《机器学习基石》这门课做为自己入门第一课，主要有如下几点考虑：
1.中文授课，英文资料，可以快速地理解并且对各种英文术语不陌生；
2.针对新入门者，特别是非计算机科班出身，课程通俗易懂；
3.Coursera上有时间安排作业及讨论，作为工作之余学习很方便；

一、Course introduction
课程链接：https://www.coursera.org/learn/ntumlone-mathematicalfoundations/home/welcome

二、What is machine learning？
这里写图片描述
类比是很好的学习方法，通过对比人的学习过程，引出机器学习的输入输出。最大的不同在于人学习的出发点是观察，而机器是数据。

机器学习的过程就是从数据（data）出发，然后经过机器的计算（Algorithm）之后，最后获得某一种表现的增进（improved performance measure），机器学习的三个要素。
这里举了一个辨认树的方法，人可以通过观察很轻易地就进行判断这是一棵树，但如果要让机器来进行辨认的话，那么势必需要把树的特征一条一条记录下来，写进代码，让机器通过对这些特征进行一一对比。这样做首先对特征的人类语言描述本身就是一件比较难以精确完成的事，其次还要将这些描述再转化为机器可识别的语言更难以精确完成，如果要识别的树不止一种那么工作量将难以想象。因此让机器自己通过对大量的树的图片进行分析学习，学会判断识别将会有很大的效率和质量提升。

三、Components of Machine Learning
这里写图片描述
这里有个概念需要注意，机器学习的目的不是简单地获得一个单一的输出y，而是通过对一堆数据(x,y)来学习一个g(x–>y)的skill来取代理想的目标函数f，f是未知的，但我们希望g能够越接近f越好。

这里有几个概念如下：

f：未知的目标函数，机器学习的主要目的就是找到一个方法无限接近这个目标函数
D：提供给机器进行学习的训练样本
H：假说集合(hypothesis set)，为了达到机器学习的目的，提出了各种可能的hypothesis备选项的集合
A：学习算法，通过H中的各项hypothesis进行选择优化，找出一个最接近f的hypothesis g
A和H共同组成 learning model，这个概念在以后的学习很重要

四、Machine Learning and Other Fields
这里分别对比说明了ML和其他三个领域的区别与联系：
这里写图片描述

当ML和DM的目标是一致的话，可以认为ML=DM；
更多的情况下，运用DM的技术来帮忙ML获取更好的效果，反之亦然；
传统的DM更关注与大量数据的获取和分析；
因此这两个领域非常密不可分，需要都掌握。

这里写图片描述

ML是实现AI的一种方法！

这里写图片描述

统计是实现ML的一种方法！
统计学上有很多的工具可以提供给ML使用。

五、总结
本讲重点是ML的定义框图，包含f、D、H、A、g的概念及其关系，理解f为什么是未知的很重要，还有g怎么样得到？ML的应用场景很多，笔记中没有体现，有兴趣可以再温习一下视频讲义。另外从ML和DM/AI/Statistics的关系，就知道要学好ML任重道远，数学基础和方法工具需要扎实。