目录
流程概述
获取数据
- 获取经验数据
- 图像数据
- 文本数据
- 用户数据
- ......
数据基本处理
- 数据缺失值处理
- 异常值处理
- ......
特征工程
概述
特征:对任务有用 的属性信息
特征工程:利用专业背景知识和技巧处理数据,让模型效果更好
内容
特征提取:
从原始数据中提取与任务相关的特征,构成特征向量
特征预处理:
特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小
将不同的单位的特征数据转换成同一个范围内,
使训练数据中不同特征对模型产生较为一致的影响
不同特征堆模型影响一致性,其中量纲问题用:归一化,标准化
特征降维:
保证数据的主要信息要保留下来
特征选择:
原始数据特征很多,但是对任务相关是其中一个特征集合子集。
从特征中选则出一些重要特征训练模型
特征组合:
把多个特征合并组合成一个特征
机器学习(模型训练)
KNN近邻算法
线形回归
逻辑回归
决策树
GBDT
......
模型评估
分类
回归评测指标:MAE MSE
分类评测指标:准确率
聚类评测指标:CH,SC...
模型拟合问题
拟合
用来表示模型对样本点的拟合情况
三种情况
正好拟合:
用来表示模型对样本点的拟合情况
欠拟合:
模型在训练集上表现很差、在测试集表现也很差
原因:模型过于简单
过拟合:
模型在训练集上表现很好、在测试集表现很差
原因:模型太过于复杂、数据不纯、训练数据太少
泛化
模型在新数据集(非训练数据)上的表现好坏的能力
奥卡姆剃刀原则
给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取
总结
以上就是机器学习的建模流程,内容比较基础,想要学习机器学习的朋友,可以在此基础上去看看其他大佬们更深层次的讲解,谢谢观看.