这本书从译者的序可以看出,我们看的时候不应该过于专注于模型的推到,我们要做到的是掌握算法的特点和使用方法。因为本人专注于的是工程项目,而不是开发所谓的新算法,所以这本书拿来就用的特点很适合我。以下记录一些看到的基本概念。
泛化:指的是解决新问题的能力
有监督学习:(1)是带有外界反馈的学习(2)是有自己的目的,希望通过已有的数据,对没有学习过的问题做出解答。
无监督学习:(1)不带有外界反馈的学习,自己主动收集学习(2)可以不带有明确的目的
回归:(1)有监督的函数近似问题,输入的是一系列点集{xi yi}(i=1~n) (2)它的目的是得到明确的数学模型,误差计算为预测模型和客观模型的差异
分类:(1)有监督的模型识别问题,
输入的是一系列点集{xi yi}(i=1~n),但是yi在记录时,把yi记作一个类(2)它的目的是得到每有一个输入,输出一个类。
聚类:(1)无监督的模型识别问题,
输入的是一系列点集{xi }(i=1~n) (2)它的目的是得到每有一个输入,输出一个簇。相同簇的样本具有相似性,不同簇的样本相似性较低。
异常检测:输入样本包含的异常数据,靠近密度中心则正常,偏离则异常
降维:对于高维度输入点集{xi} ,通过横向量T ,设输出的为{zi},则有zi = T xi 。 (1)对于有监督学习输入输出样本为{xi} {yi},降维有助于提高泛化能力(2)对于无监督学习输入样本为{xi},降维后必须使得数据的近邻关系不变化。