距离度量
特征预处理
做归一化和标准化的原因:特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响 (支配)目标结果,使得一些模型(算法)无法学习到其它的特征。
数据归一化:通过对原始数据进行变换把数据映射到【mi,mx】(默认为[0,1])之间。
代码实现:
数据标准化:通过对原始数据进行标准化,转换为均值为0标准差为1的标准正态分布的数据。
代码实现:
利用KNN算法对鸢尾花分类
实现流程:
# 1 获取数据集
# 2 数据基本处理
# 3 数据集预处理-数据标准化
# 4 机器学习(模型训练)
# 5 模型评估
# 6 模型预测
代码实现: