参考网址:http://redstonewill.com/category/written-interview/
机器学习笔试题精选试题一
1. 在线性回归问题中,利用R平方(R-Squared)来判断拟合度:数值越大说明模型拟合的越好。数值在[0 1]之间。
随着样本数量的增加,R平方的数值必然也会增加,无法定量地说明新增的特征有无意义。对于新增的特征,R平方的值可能变大也可能不变,两者不一定呈正相关。
用校正决定系数(Adjusted R-Square): 可以消除样本数量对R-Square的影响,做到了真正的0~1,越大越好。若这个新增的特征是冗余的特征,则系数会变小;是有意义的特征,则系数会增大。
2. 相关系数在[-1 1]之间。
3. 利用最小二乘法进行拟合的时候,使用垂直偏移(vertical offsets);在PCA中使用垂向偏移(perpendicular offsets)。
4. 数据量比较少时,容易出现过拟合,该模型不具备较好的泛化能力;假设空间较小时,容易出现高偏差、低方差,即欠拟合。
机器学习笔试题精选试题二
1. Lasso回归:
数据集的特征是100个(X1,X2,......X100),把其中的一个特征值扩大10倍(例如是特征值X1),然后利用相同的