1.机器学习大致分类:
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:
监督学习( supervised learning):代表:分类(classification),回归(regression).其中分类预测的是离散值,例如二分类问题;而回归则预测的是连续值。
无监督学习( unsupervised learning):代表:聚类(clustering)
2.泛化能力
泛化能力 (generalization) 通俗来讲就是指学习到的模型对未知数据的预测能力。在实际情况中,我们通常通过测试误差来评价学习方法的泛化能力。具有强泛化能力的模型能很好地适用于整个样本空间.训练集通常要能很好地反映出样本空间的特性,否则就很难期望在训练集上学得的模型能在整个样本空间上都工作得很好。
举一个通俗易懂的例子,小明(模型)高三了,平时训练要做许多模拟题(训练),最后参加高考(测试),要想高考成绩好,模拟题就要找得好才行。如果平时模拟小明都表现得非常好,但是高考考得一塌糊涂,那他泛化能力就很弱。泛化能力强调的是在新的数据上的表现。
提高泛化能力的方式大致有三种:1.增加数据量。2.正则化。3.凸优化。
第二章的笔记就是在 goodnote做的,所以是图片的形式分享出来。
此篇文章为本人看书后的一些记录,纯原创,如若有不严谨或错误的地方,还望大家指出,谢谢。
参考:周志华 机器学习,datawhale吃瓜教程