关于机器学习初级算法梳理
一.机器学习术语
机器学习主要是研究如何使计算机从给定的数据中学习规律,即从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对位置或无法观测的数据进行预测。
学习:针对经验E (experience) 和一系列的任务 T (tasks)和一定表现的衡量 P,如果随之经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力。
样本数据就是的(x,y),其中x叫做输入数据(inputdata),y叫做输出数据(output data)或者叫做一个更加专业的名字——标签(label)。
标签y根据需求不同有各种形式:二值型,多值型连续型。
样本分布:分布(distribution):样本空间的全体样本服从的一种规律.
其中最重要的为:独立同分布(independent and identicallydistributed,简称i,i,d.):获得的每个样本都是独立地从这个分布上采样获得的。
特征:对象在某方面的表现或性质的事项。特征是机器学习和模式识别领域一个比较特有的名词,在传统机器学习算法中,由于计算性能和参数的限制,所以输入的数据维数不能太高。手机随随便便一张照片就有几个MB的数据量,可能会有几百万个像素,这么高维的数据量是不能直接输入给学习机的,因此需要针对特别的应用提取相对应的特征向量。
特征向量的作用主要有两个:降低数据维度:通过提取特征向量,把原始数据的维度大大较低,简化模型的参数数量。
提升模型性能:一个好的特征,可以提前把原始数据最关键的部分提取出来,因此可以提高学习机的性能。
数据集:完整的数据集表示为全部数据的集合对于一个学习机而言,不是所有的数据都用于训练学习模型,而是会被分为三个部分:训练数据、交叉验证数据、测试数据。
训练数据(training data):训练数据用于训练学习模型,通常比例不低于总数据量的一半。
交叉验证数据(cross validation data):用于衡量训练过程中模型的好坏。
测试数据(testing data):用于衡量最终模型的性能好坏,这也是模型性能好坏的衡量指标。
测试:学得模型后,使用其进行预测的过程称为“测试”,被测试的样本称为测试样本。
监督学习与无监督学习:根据训练数据是否拥有标记信息,学习任务可以分为两类,监督学习和无监督学习:分类和回归是前者的代表,聚类是后者的代表(学习过程中使用的训练样本通常不拥有标记信息)。
泛化 : 学得模型适用于新样本的能力,称为“泛化”能力,具有强泛化能力的模型能很好地适用整个样本空间。
假设:通过学习得到的模型对应了假设空间中的一个假设。
学习过程:通常假设样本空间中全体样本服从一个未知分布,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。一般而言,训练样本越多,我们得到的关于该未知分布的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。
我们可以将学习过程看作是在一个所有的假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的训练样本判断正确的假设。
概念学习:概念学习(归纳学习)的目标就是泛化,即是通过对训练集中的训练样本进行学习以获得对测试集进行判断的能力。
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好我们称之为“归纳偏好”,简称“偏好”。
归纳偏好对应了学习算法本身所作出的关于什么样的模型更好的假设,在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
二.knn算法
1.KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较,提取出样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k近邻算法中k的出处,通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。
说明:KNN没有显示的训练过程,它是“懒惰学习”的代表,它在训练阶段只是把数据保存下来,训练时间开销为0,等收到测试样本后进行处理。
举例:以电影分类作为例子,电影题材可分为爱情片,动作片等,那么爱情片有哪些特征?动作片有哪些特征呢?也就是说给定一部电影,怎么进行分类?这里假定将电影分为爱情片和动作片两类,如果一部电影中接吻镜头很多,打斗镜头较少,显然是属于爱情片,反之为动作片。有人曾根据电影中打斗动作和接吻动作数量进行评估,数据如下:
给定一部电影数据(18,90)打斗镜头18个,接吻镜头90个,如何知道它是什么类型的呢?KNN是这样做的,首先计算未知电影与样本集中其他电影的距离(这里使用曼哈顿距离),数据如下
现在我们按照距离的递增顺序排序,可以找到k个距离最近的电影,加入k=3,那么来看排序的前3个电影的类别,爱情片,爱情片,动作片,下面来进行投票,这部未知的电影爱情片2票,动作片1票,那么我们就认为这部电影属于爱情片。
2 KNN算法优缺点
优点:精度高,对异常值不敏感、无数据输入假定
缺点:计算复杂度高、空间复杂度高
3 KNN算法python代码实现
实现步骤:
(1)计算距离
(2)选择距离最小的k个点
(3)排序
三.线性回归
线性回归,就是能够用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候,就能够预测出一个简单的值。线性回归中最常见的就是房价的问题。一直存在很多房屋面积和房价的数据,如下图所示:
在这种情况下,就可以利用线性回归构造出一条直线来近似地描述放假与房屋面积之间的关系,从而就可以根据房屋面积推测出房价。
线性回归的函数模型
通过线性回归构造出来的函数一般称之为了线性回归模型。线性回归模型的函数一般写作为:
线性回归模型的代价函数
通过线性回归算法,我们可能会得到很多的线性回归模型,但是不同的模型对于数据的拟合或者是描述能力是不一样的。我们的目的最终是需要找到一个能够最精确地描述数据之间关系的线性回归模型。这是就需要用到代价函数。代价函数就是用来描述线性回归模型与正式数据之前的差异。如果完全没有差异,则说明此线性回归模型完全描述数据之前的关系。如果需要找到最佳拟合的线性回归模型,就需要使得对应的代价函数最小,相关的公式描述如下:
Hypothesis,表示的就是线性回归模型
Cost Function,代价函数
Goal,就是要求对应的代价函数最小
线性回归模型求解
假设在线性回归模型中仅仅只存在一个函数,就是斜率参数。即theta-0是0。如果存在如下的数据:
图中对应的3个点分别为(1,1),(2,2),(3,3)那么很明显,最佳线性回归模型就是h(x)=x。如果通过实验证明呢?我们画出在theta-1处于不同值的代价函数。
线性回归模型的特点
1.建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。
2.可以根据系数给出每个变量的理解和解释。
3.对异常值很敏感。
四.逻辑回归
逻辑回归(Logistic Regression)是最简单的分类算法之一
Logistic 函数
原函数
Sigmoid 函数是所有函数图像为 S-形的函数的统称。Logistic 函数是形如下式定义的函数
此处 α 是函数的参数,它调整函数曲线的形状。当参数 α=1 时,它的函数曲线如下图所示,因而它是一个 Sigmoid 函数。
当 α 增大时,函数曲线在 x 轴方向压缩,函数曲线越接近阶梯函数。反之,当 α 减小时,函数曲线在 x 轴方向拉伸。通常,我们可以直接使用 α=1 的 Logistic 函数,即:
导函数
Logistic 函数的导函数具有很好的形式,具体来说:
模拟概率
由于 Logistic 函数的值域是 (0,1) 且便于求导,它在机器学习领域经常被用来模拟概率。
具体来说,假设二分类模型有判别函数 z=f(x ;w )。其表意为:当输出值 z 越大,则 x⃗ 代表的样本为正例的概率越大;当输出值 z 越小,则 x 代表大样本为负例的概率越大。此时,考虑到 Logistic 函数的值域,我们可以用 P(x )=σ(f(x;w )) 来表示 x 代表的样本为正例的概率。同时,由于 Logistic 函数便于求导,只要我们选用了合适的损失函数(例如交叉熵损失函数),我们就可以方便地将梯度下降法运用在求解参数向量 w 之上。