第1章
机器学习可分为有监督学习和无监督学习。
有监督学习:分类、回归。分类表示的是一个离散值,比如一张图片是猫还是狗,而回归输出的是一个连续值,比如房价和天气预报的预测。
无监督学习:聚类,可简单理解为样本无标记信息。
第2章 模型评估与选择
学习器在训练集上的误差称为“训练误差”或者”经验误差“。
新样本上的误差则称为”泛化误差“。
过拟合:把训练样本本身一些特征认为所有样本都包含。
欠拟合:模型的表达能力不够,也就是训练样本的一些性质尚未学好。
评估方法有留出法、交叉验证法、自助法(有放回采样)
性能度量:衡量模型泛化能力的评价标准,回归任务常用的是均方误差。
错误率和精度:
错误率:分类错误的样本数占样本总数的比例。
精度:分类正确的样本数占样本总数的比例。