【机器学习系列】机器学习简介

一、机器学习概念

  • 定义:对于某类任务 T 和性能度量 P,如果一个计算机程序在 T上 以P衡量的性能随着经验E 而自我完善,那么就称这个计算机程序在从经验 E学习
  • 机器学习时计算机科学的子领域,也是人工智能的一个分支和实现方式
  • 机器学习应用的典型领域主要有:网络安全、搜索引擎、产品推荐、字典驾驶、图形识别、语言识别、量化投资、自然语言处理等

二、机器学习、人工智能与数据挖掘的关系

2.1 人工智能 的概念

  • 人工智能包括计算智能、感知智能和认知智能等层次,目前人工智能还介于计算智能和感知智能之间
  • 人工智能的典型系统包括以下几个方面:
    1、博弈游戏(如深蓝、Alpha、Go、AlphaZero等)
    2、机器人相关控制理论(运动规划、空盒子机器人行走等)
    3、机器翻译
    4、语言识别
    5、计算机视觉系统
    6、自然语言处理(自动程序)

2.2 数据挖掘的概念

  • 数据挖掘使用机器学习、统计学和数据库等方法在相对大量的数据集中发现模式和知识,它涉及数据预处理、模型与推断、可视化等。

2.3 机器学习、人工智能与数据挖掘的关系

  • 从本质上来看,数据挖掘的目标是通过处理各种数据促进人们的决策,机器学习的主要任务是使机器模仿人类的学习,从而获得知识;而人工智能借助机器学习和推理最终形成具体的智能行为
    在这里插入图片描述

  • 机器学习与其他领域之间的关系:
    在这里插入图片描述

三、机器学习算法

机器学习主要分为:

  • 监督学习
  • 无监督学习
  • 强化学习
    在这里插入图片描述

3.1 监督学习

  • 监督学习的概念: 是从有标记的训练数据中学习的一个模型,然后根据这个模型对未知样本进行预测。其中,模型的输入是某一样本的特征,函数的输出是这一样本的对应的标签。

  • 监督学习包括 分类数字预测 两大类

  • 分类包括逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯等

  • 数字预测包括线性回归、KNN、Gradient Boosting 、ADaBoost 等

3.2 无监督学习

  • 无监督学习的概念:又称为 非监督式学习,它的输入样本并不需要标记,而是自动从样本中学习特征实现预测。
  • 常见的无监督学习算法有:聚类 和 关联分析等,在人工神经网络中,自组织映射(SOM) 和 适应性共振理论(ART)是最常见的 无监督学习

3.3 强化学习

  • 强化学习的概念:是通过观察来学习做成什么样的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。
  • 强化学习强调如何基于环境而行动,以取得最大化的预期利益

四、机器学习的一般流程

机器学习开发流程:

  • 获取数据
  • 数据处理
  • 特征工程
  • 机器学习算法模型
  • 模型评估
  • 应用

4.1 定义分析目标

  • 应用机器学习解决事件问题,首先要明确目标任务,这是机器学习算法选择的关键。明确要解决的问题和业务需求,才可能基于现有数据设计或选择算法
  • 例如
  • 在监督式学习过程中 对定性问题 可用分类算法,对定量分析可采用 回归方法
  • 在无监督式学习中,若有样本细分则可应用 聚类算法,若需找出各数据项之间的内在联系,可应用关联分析

4.2 收集数据

  • 数据要有代表性并尽可能覆盖领域,否则容易出现过拟合或欠拟合

4.3 整理预处理

  • 获得数据之后,不应该基于创建模型,可先对数据进行一些探索,了解数据的大致结构、数据的统计信息、数据噪声以及数据分布等
  • 在此过程中,为了更好的查看数据情况,可使用数据可视化方法或数据质量评价对数据质量进行评估
  • 机器学习常见的预处理方法:归一化、离散化、缺失值处理、去除共线性等

4.4 数据建模

  • 应用特征选择方法,可以从数据中提取出合适的特征,并将其应用于模型中得到较好的结果
  • 特征选择时可应用有效性分析技术,如 相关系数、卡方检验、平均互信息、条件熵、后验概率和逻辑回归权重等方法
  • 训练模型前,一般会把数据集分为 训练集 和 测试集 ,或对训练集在细分为 训练集和验证集,从而对模型的泛化能力进行评估
  • 一般会用几种不同的方法来进行模型训练,然后比较他们的性能,从中选择最优的一个.不同的模型使用不同的性能衡量指标

4.5 模型训练

  • 在模型训练过程中, 需要对模型参数进行优化,如果对算法原理理解不够透彻,往往无法快速定位能决定模型优劣的模型参数

4.6 模型评估

  • 若测试结果不理想,则分析原因并进行模型调优
  • 可以对模型进行诊断以确定模型调优的方向和思路,过拟合 和 欠拟合判断是模型诊断中重要的一步,常见的方法有 交叉验证以及 绘制学习曲线等
  • 过拟合的基本调优思路: 增加数据量,降低模型复杂度
  • 欠拟合的基本调优思路: 提高特征数量和质量,增加模型复杂度

4.7 模型应用

  • 模型应用主要与工程实现的相关性比较大。
  • 工程上是结果导向,模型在线上运行的效果直接决定模型的好坏,不单纯包括其准确程度、误差等情况,还包括其运行的速度(时间复杂度)、资源消耗程度(空间复杂度)、稳定性是否可接受等方面。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值