1. 机器学习的一些概念
1.1 有监学习
不仅把训练数据输入给计算机,而且还把数据具有的标签也一并输入计算机分析。计算机进行学习之后,再丢给它新的未知的数据,它也能计算出该数据导致各种结果的概率,给你一个最接近正确的结果。由于计算机在学习的过程中不仅有训练数据,而且有训练结果(标签),因此训练的效果通常不错。
1.2 无监督学习
只给计算机训练数据,不给结果(标签),因此计算机无法准确地知道哪些数据具有哪些标签,只能凭借强大的计算能力分析数据的特征,从而得到一定的成果,通常是得到一些集合,集合内的数据在某些特征上相同或相似。
1.3 泛化能力
是指一个机器学习算法对于没有见过的样本的识别能力。我们也叫做举一反三的能力,或者叫做学以致用的能力。
1.4 过拟合、欠拟合
过拟合:根本的原因则是特征维度过多,导致拟合的函数完美的经过训练集,但是对新数据的预测结果则较差。解决:1.减少特征维度; 可以人工选择保留的特征,或者模型选择算法正则化; 2.保留所有的特征,通过降低参数θ的值,来影响模型
欠拟合:根本的原因是特征维度过少,导致拟合的函数无法满足训练集,误差较大。欠拟合问题可以通过增加特征维度来解决。
摘自:机器学习:什么是过拟合、欠拟合