上节课主要简述了机器学习的定义及其重要性,并用流程图的形式介绍了机器学习的整个过程:
本节课将继续深入探讨机器学习问题,介绍感知机Perceptron模型,并推导课程的第一个机器学习算法:Perceptron Learning Algorithm(PLA)。
一、Perceptron Hypothesis Set
首先我们要解决一个问题:what hypothesis set can we use? 这里涉及到我们该如何选择一个模型,即Hypothesis Set,不同的模型将对机器学习的结果产生很大的影响。这里介绍一个简单常用的hypothesis set,即感知器(Perceptron)。
还是以上节课提到的一个案例:机器学习应该怎么通过以往的用户数据,来判断是否给新的申请用户发放信用卡。
首先第一步我们需要根据所拿到训练数据建立一个模型:
- 对用户不同维度的特征进行打分,组成一个向量X;
- 给每个维度的特征赋予一定的权重值wi;
- 计算加权和,并与threshold进行对比,得出 y{+1(good) or -1(bad)};
- 这里h(x)是一个关于wi和threshold的函数,选取不同的wi和threshold就会有不同的结果,这些h我们统称为hypothesis set H;
h(x)的表达式可以通过以上进行简化,变成为一个权重w向量和向量x的内积。这样的数学形式很简洁,在以后的学习中可以有效地帮助我们理解和计算。
w和x都是一个d维的向量,那么h(x)究竟会长什么样?对于高维的抽象比较难以理解,这里使用一个二维的例子来进行说明