scikit_learn数据集
数据可视化
数据集划分
注:返回值x_train, x_test, y_train, y_test的顺序不能变。
特征预处理
预处理是对特征值进行处理,不需要对目标值处理。
归一化总结:
注意最大值最小值是变化的,另外,最大值和最小值非常容易受异常点的影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。
- 对于归一化来说,如果出现异常点,影响了最大值和最小值,那么结果显然会发生改变。
- 对于标准化来说,如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。
标准化总结:
在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。
鸢尾花种类预测
k近邻算法优缺点
交叉验证、网格搜索
注:交叉验证只能使模型更加准确可信,不能提高准确率,要提高准确率需要使用网格搜索。