机器学习的建模流程

目录

流程概述

获取数据

数据基本处理

特征工程

        概述

        内容

                特征提取:

                特征预处理:

                特征降维:

                特征选择:

                特征组合:

机器学习(模型训练)

模型评估

        分类

        模型拟合问题

                  拟合

​编辑

                三种情况

                                正好拟合:

                                欠拟合:

                                过拟合:

                泛化

                奥卡姆剃刀原则

总结


流程概述

   

获取数据

  • 获取经验数据
  • 图像数据
  • 文本数据
  • 用户数据
  • ......

数据基本处理

  • 数据缺失值处理
  • 异常值处理
  • ......

特征工程

        概述

                特征:对任务有用 的属性信息

                特征工程:利用专业背景知识和技巧处理数据,让模型效果更好

        内容

                特征提取:

                               从原始数据中提取与任务相关的特征,构成特征向量

                特征预处理:

                        特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小

                        

                        将不同的单位的特征数据转换成同一个范围内,

                        使训练数据中不同特征对模型产生较为一致的影响

                        不同特征堆模型影响一致性,其中量纲问题用:归一化,标准化

                特征降维:

                                保证数据的主要信息要保留下来

                特征选择:

                                原始数据特征很多,但是对任务相关是其中一个特征集合子集。

                                从特征中选则出一些重要特征训练模型

                特征组合:

                                把多个特征合并组合成一个特征

机器学习(模型训练)

        KNN近邻算法
        线形回归
        逻辑回归
        决策树
        GBDT
        ......

模型评估

        分类

                回归评测指标:MAE   MSE

                分类评测指标:准确率

                聚类评测指标:CH,SC...

        模型拟合问题

                  拟合

                                用来表示模型对样本点的拟合情况

                三种情况

                                正好拟合:

                                                用来表示模型对样本点的拟合情况

                                欠拟合:

                                                模型在训练集上表现很差、在测试集表现也很差   

                                                原因:模型过于简单

                                过拟合:

                                                模型在训练集上表现很好、在测试集表现很差

                                                原因:模型太过于复杂、数据不纯、训练数据太少

                泛化

                        模型在新数据集(非训练数据)上的表现好坏的能力

                奥卡姆剃刀原则

                         给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取

总结

       以上就是机器学习的建模流程,内容比较基础,想要学习机器学习的朋友,可以在此基础上去看看其他大佬们更深层次的讲解,谢谢观看.

  • 8
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值