机器学习 (科学计算库)1

一:机器学习

数据决定了机器学习结果的上限,而算法只是尽可能逼近这个上限。

1,机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
机器学习工作流程总结:
1,获取数据
2,数据基本处理
3,特征工程
4,机器学习(模型训练)
5,模型评估

数据简介:
&&一行数据称为一个样本
&&一列数据称为一个特征
机器学习一般将数据集划分为两部分:
$训练数据:用于训练,构建模型
$测试数据:用于模型检验时使用,用于评估模型是否有效
划分比例:
训练集:70% 80% 75%
测试集:30% 20% 25%

2, 数据基本处理:即对数进行缺失值、去除异常值等处理

3,特征工程
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。

特征工程包含内容:
*特征提取
*特征预处理
*特征降维

特征预处理:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。

4,完整机器学习项目的流程
&&&抽象成数学问题:明确可以获得什么样的数据,抽象出的问题,是一个分类还是回归、聚类。
&&&获取数据:数据要有代表性,否则必然会过拟合
&&&特征预处理与特征选择
&&&训练模型与调优
&&&模型诊断
&&&模型融合
&&&上线运行

5,机器学习算法分类:

  • 监督学习
  • 无监督学习
  • 半监督学习
  • 强化学习

监督学习:输入数据是由输入特征值和目标值所组成。

  • 函数的输出可以是一个连续的值(称为回归)
  • 或是输出是有限个离散值(称为分类)
  • 分类:knn、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
  • 回归:线性回归、岭回归

无监督学习:输入数据是由输入特征值组成
输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。

  • 聚类 :k-mearns 、降维
    在这里插入图片描述
    6,模型评估
    按照数据集的目标值不同,可以吧模型评估分为分类 模型评估和回归模型评估

  • 分类模型评估
    &准确率:预测正确的数占样本总数的比例
    &精确率:正确预测为正占全部预测为正的比例
    &召回率:正确预测为正占全部正样本的比例
    &F1-score :主要用于评估模型的稳健性
    &AUC指标:主要用于评估样本不均衡的情况

  • 回归模型评估
    ¥均方根误差(RMSE)
    在这里插入图片描述
    ¥相对平方误差(RSE)
    在这里插入图片描述
    ¥平均绝对误差(MAE)
    在这里插入图片描述
    在这里插入图片描述
    7,拟合

    过拟合 、欠拟合

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值