挑战问题:
1、泛化能力
SVM、集成学习泛化能力比较强
更准:大数据、模型
2、速度
训练速度快的往往测试速度慢:KNN
测试速度快的往往训练速度慢:神经网络
3、可理解性
黑盒子
4、数据利用能力
未标记数据、劣质数据
5、代价敏感
假阳性、假阴性问题
样本空间
(属性取值 - 1)…(属性取值 - 1) + 1
版本空间
根据样本匹配样本空间结果形成版本空间,版本空间的属性组合可以正确判别样本结果
线性回归中的均方误差叫做欧式距离也叫做L2范式,基于均方误差最小化求解最优模型的过程叫做最小二乘法
梯度下降
决策树和随机森林