机器学习概述

  • Python语言的机器学习工具
  • Scikit-learn包括许多知名的机器学习算法的实现
  • Scikit-learn文档完善,容易上手,丰富的API

Scikit-learn包含的内容
在这里插入图片描述

安装 scikit-learn

pip install scikit-learn

安装好之后可以通过以下命令查看是否安装成功

import sklearn

注:安装scikit-learn需要Numpy, Scipy等库

3 机器学习的工作流程

在这里插入图片描述

3.1 获取数据

数据简介

一行数据我们称为一个样本
一列数据我们成为一个特征
有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)

数据类型构成

数据类型一:特征值+目标值(目标值是连续的和离散的)
数据类型二:只有特征值,没有目标值

数据分割:

机器学习一般的数据集会划分为两个部分:

  • 训练数据:用于训练,构建模型
  • 测试数据:在模型检验时使用,用于评估模型是否有效

划分比例:

  • 训练集:70% 80% 75%
  • 测试集:30% 20% 25%

3.2 数据基本处理

即对数据进行缺失值、去除异常值等处理

3.3 特征工程

特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。(会直接影响机器学习的效果)

特征工程包含内容:

  • 特征提取

    • 将任意数据(如文本或图像)转换为可用于机器学习的数字特征
      在这里插入图片描述
  • 特征预处理

    • 通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程
      在这里插入图片描述
  • 特征降维

    • 指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程
      在这里插入图片描述

3.4 机器学习(模型训练)

选择合适的算法对模型进行训练

3.5 模型评估

对训练好的模型进行评估

  • 结果达到要求,上线服务
  • 没有达到要求,重新上面步骤

4 机器学习算法的分类

根据数据集组成不同,可以把机器学习算法分为:

  • 监督学习:输入数据是由输入特征值和目标值所组成

    • 函数的输出可以是一个连续的值(回归)
    • 或是输出是有限个离散值(分类)
  • 无监督学习:输入数据是由输入特征值组成

    • 样本数据类别未知,需要根据样本间的相似性对样本集进行分类,试图使类内差距最小化,类间差距最大化(聚类)
    • 将原高维空间中的数据点映射到低维度的空间中(降维)
      在这里插入图片描述
  • 半监督学习:训练集同时包含有标记样本数据和未标记样本数据。

  • 强化学习:实质是 make decisions 问题,即自动进行决策,并且可以做连续决策

    • 马尔科夫决策
    • 动态规划

强化学习举例:
小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。
小孩就是 agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。

在这里插入图片描述

拓展:独立同分布

在这里插入图片描述

在这里插入图片描述

5 机器学习模型评估方法

5.1 分类模型评估

在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类)
在这里插入图片描述
准确率

  • 预测正确的数占样本总数的比例
  • (TP+TN) / (TP+FP+FN+TN)

精确率

  • 正确预测为正占全部预测为正的比例(查得准不准)
  • TP/(TP+FP)

召回率

  • 正确预测为正占全部正样本的比例(查得全不全)
  • TP/(TP+FN)

F1-score

  • 主要用于评估模型的稳健性
  • 其值越接近于1,模型的稳健性越强
    在这里插入图片描述

ROC曲线

ROC曲线的横轴就是FPRate,纵轴就是TPRate,当二者相等时,表示的意义则是:对于不论真实类别是1还是0的样本,分类器预测为1的概率是相等的,此时AUC为0.5
在这里插入图片描述
AUC指标

  • 主要用于评估样本不均衡的情况
  • 只能用来评价二分类问题
  • AUC的概率意义是随机取一对正负样本,正样本得分大于负样本的概率
  • AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC的最小值为0.5,最大值为1,取值越高越好
  • AUC=1,完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。
  • 0.5<AUC<1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。

TPR = TP / (TP + FN)

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值