一.绪论
机器学习是一门致力于研究如何通过计算手段,利用经验来改善自身性能的学科。
1.1 基本术语
要进行机器学习,首先得有数据;数据集合组成数据集,其是关于一个事件或对象的描述;反映事物在某方面的表现或性质的事项称为属性,属性取值称为属性值,属性张成的空间称为属性空间or样本空间。
从数据中学得模型的过程称为“学习”or“训练”,训练数据中的每个样本称为训练样本,样本组成的集合称为训练集;学习模型对应了关于数据的某种潜在规律,称为假设。
学得模型后使用其进行预测的过程称为“测试”,被预测的样本称为测试样本。
1.2假设空间
可以把学习过程看作一个在所有假设组成的空间力进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,假设的表示一旦确定,假设的空间和规模大小就确定了;有许多策略对假设空间进行搜索,例如自顶向下、一般到特殊等等,搜索过程中可以不断删除与正例不一致的假设,最终会获得与训练集一致的假设。
1.3归纳偏好
归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
1.4了解
包含关系:人工智能>机器学习>深度学习(神经网络类算法)
人工智能应用领域:计算机视觉CV、自然语言处理NLP、推荐系统RS等。
二 模型选择与评估
2.1经验误差与过拟合
一般的,我们把学习器的实际预测输出与样本的真实输出之间的差异称为误差,学习器在训练集上的误差称为经验误差;
当学习器把训练样本学得太好,可能已经把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质,这样会导致泛化性能下降,该现象称为过拟合。
……待补充。
2.2评估方法