机器学习概述

最新推荐文章于 2024-07-20 17:34:51 发布

2401_84167086

最新推荐文章于 2024-07-20 17:34:51 发布

阅读量365

点赞数 4

分类专栏：程序员文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/2401_84167086/article/details/138297859

版权

程序员专栏收录该内容

175 篇文章 0 订阅

订阅专栏

本文介绍了Python的机器学习库Scikit-learn，涵盖了从安装、数据获取、预处理到特征工程、模型训练、评估以及各类机器学习算法的分类。重点讲解了监督学习、无监督学习和强化学习的区别，并详细解释了模型评估指标如准确率、精确率、召回率和AUC。

摘要由CSDN通过智能技术生成

Python语言的机器学习工具
Scikit-learn包括许多知名的机器学习算法的实现
Scikit-learn文档完善，容易上手，丰富的API

Scikit-learn包含的内容
在这里插入图片描述

安装 scikit-learn

pip install scikit-learn

安装好之后可以通过以下命令查看是否安装成功

import sklearn

注：安装scikit-learn需要Numpy, Scipy等库

3 机器学习的工作流程

在这里插入图片描述

3.1 获取数据

数据简介：

一行数据我们称为一个样本
一列数据我们成为一个特征
有些数据有目标值（标签值），有些数据没有目标值（如上表中，电影类型就是这个数据集的目标值）

数据类型构成：

数据类型一：特征值+目标值（目标值是连续的和离散的）
数据类型二：只有特征值，没有目标值

数据分割：

机器学习一般的数据集会划分为两个部分：

训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效

划分比例：

训练集：70% 80% 75%
测试集：30% 20% 25%

3.2 数据基本处理

即对数据进行缺失值、去除异常值等处理

3.3 特征工程

特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。（会直接影响机器学习的效果）

特征工程包含内容：

特征提取
- 将任意数据（如文本或图像）转换为可用于机器学习的数字特征
特征预处理
- 通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程
特征降维
- 指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程

3.4 机器学习(模型训练)

选择合适的算法对模型进行训练

3.5 模型评估

对训练好的模型进行评估

结果达到要求，上线服务
没有达到要求，重新上面步骤

4 机器学习算法的分类

根据数据集组成不同，可以把机器学习算法分为：

监督学习：输入数据是由输入特征值和目标值所组成
- 函数的输出可以是一个连续的值(回归）
- 或是输出是有限个离散值（分类）
无监督学习：输入数据是由输入特征值组成
- 样本数据类别未知，需要根据样本间的相似性对样本集进行分类，试图使类内差距最小化，类间差距最大化（聚类）
- 将原高维空间中的数据点映射到低维度的空间中（降维）
半监督学习：训练集同时包含有标记样本数据和未标记样本数据。
强化学习：实质是 make decisions 问题，即自动进行决策，并且可以做连续决策
- 马尔科夫决策
- 动态规划

强化学习举例：
小孩想要走路，但在这之前，他需要先站起来，站起来之后还要保持平衡，接下来还要先迈出一条腿，是左腿还是右腿，迈出一步后还要迈出下一步。
小孩就是 agent，他试图通过采取行动（即行走）来操纵环境（行走的表面），并且从一个状态转变到另一个状态（即他走的每一步），当他完成任务的子任务（即走了几步）时，孩子得到奖励（给巧克力吃），并且当他不能走路时，就不会给巧克力。

在这里插入图片描述

拓展：独立同分布

在这里插入图片描述

5 机器学习模型评估方法

5.1 分类模型评估

在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵(适用于多分类)
在这里插入图片描述
准确率

预测正确的数占样本总数的比例
(TP+TN) / (TP+FP+FN+TN)

精确率

正确预测为正占全部预测为正的比例（查得准不准）
TP/(TP+FP)

召回率

正确预测为正占全部正样本的比例（查得全不全）
TP/(TP+FN)

F1-score

主要用于评估模型的稳健性
其值越接近于1，模型的稳健性越强

ROC曲线

ROC曲线的横轴就是FPRate，纵轴就是TPRate，当二者相等时，表示的意义则是：对于不论真实类别是1还是0的样本，分类器预测为1的概率是相等的，此时AUC为0.5
在这里插入图片描述
AUC指标

主要用于评估样本不均衡的情况
只能用来评价二分类问题
AUC的概率意义是随机取一对正负样本，正样本得分大于负样本的概率
AUC（Area Under Curve）被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。AUC的最小值为0.5，最大值为1，取值越高越好
AUC=1，完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5<AUC<1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。

TPR = TP / (TP + FN)