机器学习概述

人工智能主要分支

人工智能、机器学习和深度学习

  • 机器学习是人工智能的一个实现途径
  • 深度学习是机器学习的一个方法发展而来           

主要分支介绍

         通讯、感知与行动是现代人工智能的三个关键能力,在这里我们将根据这些能力/应用对这三个技术领域进行介绍:计算机视觉(CV)、自然语言处理(NLP)和机器人。在 NLP 领域中,将覆盖文本挖掘/分类、机器翻译和语音识别。

  • 计算机视觉

        计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。物体检测和人脸识别是其比较成功的研究领域。

  • 语音识别

       语音识别是指识别语音(说出的语言)并将其转换成对应文本的技术。相反的任务(文本转语音/TTS)也是这一领域内一个类似的研究主题。

  • 文本挖掘/分类

        这里的文本挖掘主要是指文本分类,该技术可用于理解、组织和分类结构化或非结构化文本文档其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

  • 机器翻译

       机器翻译(MT)是利用机器的力量自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

  • 机器人

        机器人学(Robotics)研究的是机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理。

        机器人可以分成两大类:固定机器人和移动机器人固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。

机器学习工作流程

什么是机器学习

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。

机器学习工作流程

  • 获取到的数据集介绍

1.数据简介

在数据集中一般:

        一行数据我们称为一个样本

        一列数据我们成为一个特征

        有些数据有目标值(标签值),有些数据没有目标值

2.数据类型构成

数据类型一:特征值+目标值(目标值是连续的和离散的)

数据类型二:只有特征值,没有目标值

3.数据分割

机器学习一般的数据集会划分为两个部分:

        训练数据:用于训练,构建模型

        测试数据:在模型检验时使用,用于评估模型是否有效

        划分比例:(这边主要有留出法、交叉验证法、自主法、调整与最终模型等)

        一般常用划分比列:

                训练集:70% 80% 75%

                测试集:30% 20% 25%

  • 数据基本处理

即对数进行缺失值、去除异常值等处理

  • 特征工程

1、什么是特征工程

特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。

意义:会直接影响机器学习的效果

 

2、为什么需要特征工程

机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”

注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

3、特征工程包含内容

1)特征提取

特征提取:将任意数据(如文本或图像)转换为可用于机器学习的数字特征

2)特征预处理

特征预处理:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

3)特征降维

特征降维:指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程

  • 机器学习

1、监督学习

  • 定义:

               输入数据是由输入特征值和目标值所组成。

               函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。

        回归问题:

           分类问题:

2、无监督学习

      定义:

               输入数据是由输入特征值组成。

               输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。

3、半监督学习

      半监督学习:即训练集同时包含有标记样本数据和未标记样本数据。

4、强化学习

      强化学习:实质是,make decisions 问题,即自动进行决策,并且可以做连续决策。

  • 模型评估

模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。

1、分类模型评估

      准确率

              预测正确的数占样本总数的比例。

      精确率

              正确预测为正占全部预测为正的比例

      召回率

              正确预测为正占全部正样本的比例

      F1-score

              主要用于评估模型的稳健性

       AUC指标

               主要用于评估样本不均衡的情况

2、回归模型评估

  • 均方根误差(Root Mean Squared Error,RMSE)

    • RMSE是一个衡量回归模型误差率的常用公式。 然而,它仅能比较误差是相同单位的模型。

       相对平方误差(Relative Squared Error,RSE)

  •         与RMSE不同,RSE可以比较误差是不同单位的模型 。

     

  • 平均绝对误差(Mean Absolute Error,MAE)

    • MAE与原始数据单位相同, 它仅能比较误差是相同单位的模型。量级近似与RMSE,但是误差值相对小一些。

       

  • 相对绝对误差(Relative Absolute Error,RAE)

    • 与RSE不同,RAE可以比较误差是不同单位的模型。

  • 决定系数 (Coefficient of Determination)

    • 决定系数 (R2)回归模型汇总了回归模型的解释度,由平方和术语计算而得。

3、拟合

      模型评估用于评价训练好的的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合。

      在训练过程中,你可能会遇到如下问题:

      训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?

      当算法在某个数据集当中出现这种情况,可能就出现了拟合问题。

      1)欠拟合

            由于特征太少导致预测不准

       2)过拟合

            由于特征太多导致预测不准

      

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值