人工智能之knn算法总结(二)

1.7特征工程-特征预处理

1 什么是特征预处理

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

2.包含内容

归一化
标准化

3.api

sklearn.preprocessing

4.归一化

定义:对原始数据进行变换把数据映射到(默认为(0,1))之间
api:
  • sklearn.preprocessing.MinMaxScalar(feature_range=(0,1)…)
  • 参数:feature_range — 自己指定范围,默认0-1
总结:最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。(不用)

5.标准化

定义:通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内
api:
sklearn.preprocessing.StandardScaler()
总结:异常值对我影响小,适合现代嘈杂大数据场景(以后就用你了)

1.8 案例:鸢尾花种类预测—流程实现[***]

1.api

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)
algorithm – 选择什么样的算法进行计算 auto,ball_tree, kd_tree, brute

2.案例流程

1.获取数据集
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估

1.9k近邻算法总结

优点:

  1. 简单有效
  2. 重新训练代价底
  3. 适合类域交叉样本
  4. 适合大样本自动分类

缺点:

  1. 惰性学习
  2. 类别评分不是规格化
  3. 输出可解释性不强
  4. 对不均衡的样本不擅长 样本不均衡:收集到的数据每个类别占比严重失衡
  5. 计算量较大

1.10交叉验证和网格搜索

1.交叉验证

  1. 定义: 将拿到的训练数据,分为训练和验证集
    *折交叉验证
  2. 分割方式 训练集:训练集+验证集 测试集:测试集
  3. 为什么需要交叉验证 为了让被评估的模型更加准确可信 注意:交叉验证不能提高模型的准确率

2.网格搜索

超参数: sklearn中,需要手动指定的参数,叫做超参数
网格搜索就是把这些超参数的值,通过字典的形式传递进去,然后进行选择最优值

3.api:

sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)

estimator – 选择了哪个训练模型
param_grid – 需要传递的超参数
cv – 几折交叉验证
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值