机器学习这一个领域非常大,机器学习!=深度学习,机器学习包括了机械学习(即死记硬背学习,只是对之前输入的进行存储检索),深度学习和数据挖掘中的数据分析技术等等,机器学习划分有很多种,这里不一一举例。以下主要以深度学习为主。
深度学习中神经网络自身通常都是对自然界中某种算法或函数的逼近,也可能是对一种逻辑策略的表达,比如用感知机表达与或非运算。
机器学习中的一些概念:
关于对一个事件或者对象的描述叫做一个样本或者示例。
反映事件或对象在某一方面的性质的事项叫做属性。例如西瓜的色泽属性。
属性张成的空间称为属性空间,样本空间或输入空间。例如西瓜的色泽,根蒂和敲声张成的空间。
一个示例在数据角度看叫做一个特征向量。
示例结果的信息叫做标记,例如瓜是好瓜,好瓜叫做标记。拥有标记信息的示例称为样例,有时候样例也被称为样本。
如果我们欲预测的是离散值,该类学习任务叫做分类,只有两个值的分类任务又叫二分类;如果是连续值就叫做回归任务。
如果训练数据有标记信息就叫做监督学习,否则叫做无监督学习。
假设空间对应于假设的表达,例如色泽=?且根蒂=?且敲声=?,各属性拥有3个值,此时的假设空间大小4*4*4+1(1表示为空,因为一个属性的取值可以是任意的所以是4不是3)
这里我们假设根据属性学习西瓜的好坏,我们就可以把学习的过程看作是在假设空间中需找满足所有训练样本的假设。可能这样的假设不唯一,所有满足的假设构成版本空间。
紧跟着上述问题,因为模型只能有一个输出,所以机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好。
奥卡姆剃刀原则:若有多个假设与观察一致,则选择最简单的那个。
奥卡姆剃刀原则可用于归纳偏好。
没有免费的午餐定理(NFL定理):这里证明过程不列出,自行参考西瓜书P9。所有问题出现的机会相同时,无论在你看来学习算法A比学习算法B多聪明,他们的期望性能相同(即对于二分类问题中的误差一样)
但在实际问题中我们只关心我们目前讨论的问题,而对于其他问题我们不关心,比如从A地到B地,如果我们现在讨论的是A为南京鼓楼,B为南京新街口,那么骑自行车是个很好的方案,但是对于A地为南京鼓楼,B为北京新街口,那么这个方案就不合适了。
数据挖掘=数据库技术+机器学习+统计学。