1、模型评估方法:
留出发:数据集分割为两部分,data=测试集+训练集;2/3~4/5作为训练集,其余测试集
交叉验证:数据集分割为k组,k-1组为训练集,剩余1组为测试集。共k中情况,对k种情况的训练结果求平均作为最终结果。为了避免分割的影响,对上述过程进行p次,求p次总均值。称为p次k折交叉验证。
自助法:m个原始数据集D,进行又放回抽样,每次抽1个,抽取m次,得到一个新样本D1。原始数据D中始终没有被采取的样本概率:lim(1-1/m)^m=1/e=0.368. 所有可以使用D1为训练集,D\D1为测试集。
2、模型性能
均方误、精度、错误率=1-精度、查准率=准确度P=TP/(TP+FP)、查全率=召回率R=TP/(TP+FN)、F1指标(1/F1=0.5(1/P+1/R)即PR的调和平均)
查准率高,查全率低;查全率高,查准率低。
预测正 | 预测反 | |
真实正 | TP(ture positive) | FN(false negative) |
真实反 | FP(flase positive) | TN(ture negative) |
3、线性回归Y=WX+b;广义线性回归Y=f(wx+b),加权最小二乘法或似然估计来估计参数。
4、阶跃函数:y=1 if z>0;0.5 if z=0; 0 if z<0.
5、sigmoid函数:形似S的函数
6、fisher线性判别:原始数据投影到y=wx+b上,使类内距离小,类间距离大。min J=类内距离/类间距离
7、多分类:one vs one; one vs Rest; many vs many