原因:
目标函数为了尽可能的拟合较少的数据,不断复杂多个特征,从而拟合一个比较好(非常好)的函数,在数据内可以很好的预测(几乎百分百)。
过多的参数(特征复杂度)导致函数很复杂,当新数据到来时很难通过该函数得到正确的结果,即在样本外表现不佳,导致过拟合。
相关性比较弱的特征没必要加入进来,在数据量较少的情况下很难学到这些特征与数据的相关关系。这也就是为什么天猫的推荐系统用了上亿维的特征也可以呈现很好的效果(数据量很大)。
因此,当出现过拟合时如果考虑是特征太多导致的,除了减少相关性较弱的特征外,也可以增加数据量来更好的学习这些特征的相关性。或者使用正则化的方式来降低相关性较小的特征的参与度。
特征较多而数据量较少导致的overfitting
最新推荐文章于 2022-12-29 20:48:37 发布