Q:什么是机器学习
机器学习不同于以往的计算机编程,致力于研究如何通过计算机手段,利用以往的经验来改善系统自身的性能。一般的编程都是明确的告诉电脑该做什么。机器学习希望提供数据给学习算法,让它自己学习,找到其种的规律。在面对新情况的时候就能应用已产生的模型,提供相应的判断。机器学习的本质任务是预测。
Q:机器学习中需要掌握的基本概念。
样本,示例:每条记录关于一个时间(对象)的描述。
数据集:这组样本、记录、示例的集合。
属性、特征:反映事件或对象在某方面的表现或性质的事项。
属性值:属性上的取值。
样本空间、属性空间、输入空间:属性张成的空间。
学习、训练:从数据中学的模型的过程。
训练集:由训练样本组成的集合。
假设:模型对应了关于数据的某种潜在的规律。通过学习后得到的一个函数。
标记:关于样本结果的信息。拥有标记信息的示例称为样例。
泛化:学得模型适用于新样本的能力。
Q:假设空间
假设空间就是所有可能假设都存在的空间。也就是符合任务要求的假设函数形式的集合。学习过程就是在这样一个假设空间中进行搜索,找到与训练集匹配的假设。 由于有限样本训练集,可能存在多个假设与训练集一致,这个空间称为版本空间,其实就是可能正确的假设集合。
Q:什么是归纳偏好?
因为版本空间的存在,一个新的样本在面临三个假设可能会产生不同的输出(好瓜,坏瓜)。一个学习算法必定有其归纳偏好。
除训练集上所有样本的总误差与学习算法无关——NFL定理,说明看起来表现更好的算法A,在某些样本下B比A更一致。
任何的学习算法必须建立在具体的学习问题上,而不是单纯地讨论两个学习算法的好坏。//10.11