01.机器学习的简介

一、机器学习的概念

  • 定义:对于某类任务 T性能度量 P,如果一个计算机程序在 T上 以P衡量的性能随着经验E 而自我完善,那么就称这个计算机程序在从经验 E学习
  • 机器学习时计算机科学的子领域,也是人工智能的一个分支和实现方式
  • 机器学习应用的典型领域主要有:网络安全、搜索引擎、产品推荐、字典驾驶、图形识别、语言识别、量化投资、自然语言处理等

二、机器学习、人工智能与数据挖掘的关系

2.1 人工智能 的概念

  • 人工智能包括计算智能、感知智能和认知智能等层次,目前人工智能还介于计算智能和感知智能之间
  • 人工智能的典型系统包括以下几个·方面:
    1. 博弈游戏(如深蓝、Alpha、Go、AlphaZero等)
    2. 机器人相关控制理论(运动规划、空盒子机器人行走等)
    3. 机器翻译
    4. 语言识别
    5. 计算机视觉系统
    6. 自然语言处理(自动程序)

2.2 数据挖掘的概念

  • 数据挖掘使用机器学习、统计学和数据库等方法在相对大量的数据集中发现模式和知识,它涉及数据预处理、模型与推断、可视化等。
  • 数据挖掘包括以下几类常见的任务:
    1. 异常检测:对不符合预期模式的样本、事件进行识别。异常也被称为离群值、偏差和例外。异常检测常用于入侵检测、银行欺诈、疾病检测、故障检测等
    2. **关联分析:**关联规则学习实在数据库中发现变量之间的关系(强规则)。
    3. **聚类:**是一种探索性分析,在未知数据结构的情况下,根据相似性把样本分为不同的簇或子集,不用簇的样本具有很大的差异性,从而发现数据的类别与结构
    4. **分类:**分类是根据已知样本的某些特征,判断一个新样本属于哪种类别。通过特征选择和学习,建立判别函数以对样本进行分类。
    5. **回归:**回归是一种统计分析方法,用于了解两个或多个变量之间的相关关系,回归的目标是找出误差最小的拟合函数作为模型,用特定的自变量来预测因变量的值

2.3 机器学习、人工智能与数据挖掘的关系

  • 从本质上来看,数据挖掘的目标是通过处理各种数据促进人们的决策,机器学习的主要任务是使机器模仿人类的学习,从而获得知识;而人工智能借助机器学习和推理最终形成具体的智能行为

  • 机器学习与其他领域之间的关系:

    在这里插入图片描述

三、机器学习算法

  • 机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的方法
  • 机器学习主要分为:
    • 监督学习
    • 无监督学习
    • 强化学习

3.1 监督学习

  • **监督学习的概念:**是从有标记的训练数据中学习的一个模型,然后根据这个模型对未知样本进行预测。其中,模型的输入是某一样本的特征,函数的输出是这一样本的对应的标签。

  • 常见的监督学习算法包括:**回归分析 **和 统计分类

  • 监督学习包括 分类数字预测 两大类

    • 分类包括逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯等
    • 数字预测包括线性回归、KNN、Gradient Boosting 、ADaBoost 等

3.2 无监督学习

  • **无监督学习的概念:**又称为 非监督式学习,它的输入样本并不需要标记,而是自动从样本中学习特征实现预测。
  • 常见的无监督学习算法有:聚类 和 关联分析等,在人工神经网络中,自组织映射(SOM) 和 **适应性共振理论(ART)**是最常见的 无监督学习

3.3 强化学习

  • **强化学习的概念:**是通过观察来学习做成什么样的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。
  • 强化学习强调如何基于环境而行动,以取得最大化的预期利益

四、机器学习任务

  • 根据机器学习的任务分类、可以分为 回归分类聚类 三大常见机器学习任务

五、机器学习的一般流程

  • 机器学习的一般流程包括确定分析目标、收集数据、整理数据、预处理数据、训练模型、评估模型、优化模型、上线部署等步骤

5.1 定义分析目标

  • 应用机器学习解决事件问题,首先要明确目标任务,这是机器学习算法选择的关键。明确要解决的问题和业务需求,才可能基于现有数据设计或选择算法
  • 例如:
    • 在监督式学习过程中 对定性问题 可用分类算法,对定量分析可采用 回归方法
    • 在无监督式学习中,若有样本细分则可应用 聚类算法,若需找出各数据项之间的内在联系,可应用关联分析

5.2 收集数据

  • 数据要有代表性并尽可能覆盖领域,否则容易出现过拟合或欠拟合

5.3 整理预处理

  • 获得数据之后,不应该基于创建模型,可先对数据进行一些探索,了解数据的大致结构、数据的统计信息、数据噪声以及数据分布等
  • 在此过程中,为了更好的查看数据情况,可使用数据可视化方法数据质量评价对数据质量进行评估
  • 机器学习常见的预处理方法:归一化、离散化、缺失值处理、去除共线性等

5.4 数据建模

  • 应用特征选择方法,可以从数据中提取出合适的特征,并将其应用于模型中得到较好的结果
  • 特征选择时可应用有效性分析技术,如 相关系数、卡方检验、平均互信息、条件熵、后验概率和逻辑回归权重等方法
  • 训练模型前,一般会把数据集分为 训练集 和 测试集 ,或对训练集在细分为 训练集和验证集,从而对模型的泛化能力进行评估
  • 一般会用几种不同的方法来进行模型训练,然后比较他们的性能,从中选择最优的一个.不同的模型使用不同的性能衡量指标

5.5 模型训练

  • 在模型训练过程中, 需要对模型参数进行优化,如果对算法原理理解不够透彻,往往无法快速定位能决定模型优劣的模型参数

5.6 模型评估

  • 若测试结果不理想,则分析原因并进行模型调优
  • 可以对模型进行诊断以确定模型调优的方向和思路,过拟合 和 欠拟合判断是模型诊断中重要的一步,常见的方法有 交叉验证以及 绘制学习曲线等
    • 过拟合的基本调优思路: 增加数据量,降低模型复杂度
    • 欠拟合的基本调优思路: 提高特征数量和质量,增加模型复杂度

5.7 模型应用

  • 模型应用主要与工程实现的相关性比较大。
  • 工程上是结果导向,模型在线上运行的效果直接决定模型的好坏,不单纯包括其准确程度、误差等情况,还包括其运行的速度(时间复杂度)、资源消耗程度(空间复杂度)、稳定性是否可接受等方面
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值