一:机器学习
数据决定了机器学习结果的上限,而算法只是尽可能逼近这个上限。
1,机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
机器学习工作流程总结:
1,获取数据
2,数据基本处理
3,特征工程
4,机器学习(模型训练)
5,模型评估
数据简介:
&&一行数据称为一个样本
&&一列数据称为一个特征
机器学习一般将数据集划分为两部分:
$训练数据:用于训练,构建模型
$测试数据:用于模型检验时使用,用于评估模型是否有效
划分比例:
训练集:70% 80% 75%
测试集:30% 20% 25%
2, 数据基本处理:即对数进行缺失值、去除异常值等处理
3,特征工程
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
特征工程包含内容:
*特征提取
*特征预处理
*特征降维
特征预处理:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。
4,完整机器学习项目的流程
&&&抽象成数学问题:明确可以获得什么样的数据,抽象出的问题,是一个分类还是回归、聚类。
&&&获取数据:数据要有代表性,否则必然会过拟合
&&&特征预处理与特征选择
&&&训练模型与调优
&&&模型诊断
&&&模型融合
&&&上线运行
5,机器学习算法分类:
- 监督学习
- 无监督学习
- 半监督学习
- 强化学习
监督学习:输入数据是由输入特征值和目标值所组成。
- 函数的输出可以是一个连续的值(称为回归)
- 或是输出是有限个离散值(称为分类)
- 分类:knn、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
- 回归:线性回归、岭回归
无监督学习:输入数据是由输入特征值组成
输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。
-
聚类 :k-mearns 、降维
6,模型评估
按照数据集的目标值不同,可以吧模型评估分为分类 模型评估和回归模型评估 -
分类模型评估
&准确率:预测正确的数占样本总数的比例
&精确率:正确预测为正占全部预测为正的比例
&召回率:正确预测为正占全部正样本的比例
&F1-score :主要用于评估模型的稳健性
&AUC指标:主要用于评估样本不均衡的情况 -
回归模型评估
¥均方根误差(RMSE)
¥相对平方误差(RSE)
¥平均绝对误差(MAE)
7,拟合过拟合 、欠拟合