第一次学习
k近邻算法总结
优点:
1.简单有效
2.重新训练代价低
3.适合类域交叉样本
4.适合大样本自动分类
缺点:
1.惰性学习
2.类别评分不规格化
3.输出可解释性不强
4.不均衡样本不擅长
样本不均衡:收集到的数据每个类别占比严重失衡(解决方法:重新采集样本)
5.计算量较大
交叉验证与网格搜索
1.交叉验证
1.1定义:将数据分为训练和验证集,如下图所 示为4折交叉验证,分成几份就几折。
1.2.分割方式:
训练集:训练集+验证集
测试集:测试集
1.3.作用:
交叉验证并不可以提高整体准确率,只是让准确率可行度提高。
2.网格搜索
超参数:sklearn中需要手动指定的参数
网格搜索:以字典形式将所有的超参数传入,并获得其中最优的值
3.api:
sklearn.model_selection.GridSearchCV(estimator,param_grid=None,cv=None)
estimator--训练模型
param_grid--需传递的超参数
cv--几折交叉验证