注:心得这个东西,属个人体会,有时也可能是不严谨的,需自我不断纠正
1、业务知识与数据量之间的关系
反过来,数据量不足时,业务知识是不能拒绝的。
2、相关性数据是否应该存在
相关性数据的存在,其本质是增加了该特征的权重——就是说增加了赞成同一个‘倾向’(特征)的支持个数
若项目要求各特征权重一视同仁,则不需要相关性数据;
若对各特征权重的要求不是很苛刻,可以存在相关性数据。
3、数据集大小与偏差/方差偏向不同的算法的关系
如果你的训练集很小,高偏差/低方差的分类器(如朴素贝叶斯)比低偏差/高方差的分类器(如K近邻或Logistic回归)更有 优势,因为后者容易过拟合。但是随着训练集的增大,高偏差的分类器并不能训练出非常准确的模型,所以低偏差/高方差的分类器会胜出(它们有更小的渐近误差)。
4、偏差VS方差
1、业务知识与数据量之间的关系
反过来,数据量不足时,业务知识是不能拒绝的。
2、相关性数据是否应该存在
相关性数据的存在,其本质是增加了该特征的权重——就是说增加了赞成同一个‘倾向’(特征)的支持个数
若项目要求各特征权重一视同仁,则不需要相关性数据;
若对各特征权重的要求不是很苛刻,可以存在相关性数据。
3、数据量,算法复杂度,模型性能间的关系
1)数据量决定算法复杂度:
当数据量较少时,数据不足以支撑复杂算法,复杂度受到限制,算法复杂度超过这一限制时,性能表现反而下降;
当数据量多到可以支撑所有复杂算法时,复杂度越高的算法,表现的性能越好。
2)算法复杂度恒定时,模型性能会随着数据量的增加而增加;但超过某一阈值后,数据量的增加,不再使性能提升,即达到当前算法的最优,该考虑提升算法复杂度喽。
3、数据集大小与偏差/方差偏向不同的算法的关系
如果你的训练集很小,高偏差/低方差的分类器(如朴素贝叶斯)比低偏差/高方差的分类器(如K近邻或Logistic回归)更有 优势,因为后者容易过拟合。但是随着训练集的增大,高偏差的分类器并不能训练出非常准确的模型,所以低偏差/高方差的分类器会胜出(它们有更小的渐近误差)。
4、偏差VS方差
Bias可以理解为假设我们有无限多数据的时候,可以训练出最好的模型所拿到的误差;Variance是因为我们只有有限数据,其中随机性带来的误差。