机器学习概述

#观看黑马程序员人工智能入门课程笔记

1.1人工智能概述

人工智能发展必备三要素:数据,算法,计算力

计算力之CPU、GPU对比:

  • CPU主要适合I\O密集型的任务
  • GPU主要是用于计算密集型

提问:什么类型的程序适合再GPU上运行?

(1)计算密集型     (2)易于并行的程序


人工智能、机器学习和深度学习关系:

机器学习是人工智能的一个实现途径

深度学习是机器学习的一个方法发展而来(神经网络)


1.2人工智能发展历史

1 人工智能的起源

1.1图灵测试

测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。多次测试(一般为5min之内),如果有超过30%测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为有人类智能


1.2达特茅斯会议

1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,约翰·麦卡锡(John McCarthy)、马文·闵斯基(Marvin Minsky,人工智能与认知学专家)、克劳德·香农(Claude Shannon,信息论的创始人)、艾伦·纽厄尔(Allen Newell,计算机科学家)、赫伯特·西蒙(Herbert Simon,诺贝尔经济学奖得主)等科学家正聚在一起,讨论着一个完全不食人间烟火的主题:用机器来模仿人类学习以及其他方面的智能。

因此,1956年也就成为了人工智能元年。


2 发展历程

1.3人工智能主要分支

1 主要分支介绍

通讯、感知与行动是现代人工智能的三个关键能力,在这里我们将根据这些感知能力/应用对这三个技术领域进行介绍:

  • 计算机视觉(CV)
  • 自然语言处理(NPL)
  • 机器人
1.1分支一:计算机视觉

计算机视觉(CV)是机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像三维推理、物体检测和人脸识别是其比较成功的研究领域。

1.2分支二:语音识别

语音识别是指识别语音(说出的语言)并将其转换成对应的文本技术。相反的任务(文本转 语音/TTS)也是这一领域内的一个类似的研究主题。

1.3分支三:文本挖掘/分类

这里的文本挖掘主要是指文本分类,该技术可用于理解、组织和分类结构化或非机构化文本文档。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

文本挖掘和分类领域的一个瓶颈出现在歧义和有偏差的数据上。

1.4分支四:机器翻译

机器翻译(MT)是利用机器的力量自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语音)。

某种情况下,俚语和行话等内容的翻译比较苦难(受限词表问题)。

专业领域的机器翻译(比如医疗领域)表现通常不好。

1.5分支五:机器人

机器人学(Robotics)研究是机器人的设计、制造、运作和应用,以及控制他们的计算系统、传感反馈和信息处理。

机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要用不同的部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,例如定位、地图测绘和目标识别。


1.4机器学习工作流程

1 什么是机器学习

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。

2 机器学习工作流程

  • 机器学习工作总结
  • 1.获取数据
  • 2.数据基本处理
  • 3.特征工程
  • 4.机器学习(模型训练)
  • 5.模型评估

             结果达到要求,上线服务

            没有达到要求,重新上面步骤

2.1获取到的数据集介绍

数据简介

在数据集中一般:

  • 一行数据我们称为一个样本
  • 一列数据我们称为一个特征

有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)

数据类型构成:

  • 数据类型一:特征值+目标值(目标值是连续的和函数的)
  • 数据类型二:只有特征值,没有目标值

数据分割:

机器学习一般的数据集会划分为两个部分:

  • 训练数据:用于训练、构建模型
  • 测试数据:在模型检测时使用,用于评估模型是否有效

划分比例:

  • 训练集:70% 80% 75%
  • 测试集:30% 20% 25%
2.2数据基本处理

即对数据进行缺失值、去除异常值等处理

2.3特征工程
2.3.1什么是特征工程

特征工程是使用专业背景知识和技巧处理数据,使用特征能在机器学习算法上发挥更好的作用的过程。

  • 意义:会直接影响机器学习的效率
2.3.2为什么需要特征工程
2.3.3特征工程包含内容
  • 特征提取
  • 特征预处理
  • 特征降维
2.3.4各概念具体解释

特征提取

将任意数据(如文本或图像)转换为可用于机器学习的数字特征

特征预处理

通过一些转换函数将特征数据转换成更加适合算法的模型的特征数据过程

特征降维

指在某些限定的条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程

2.4机器学习

选择合适的算法对模型进行训练

2.5模型评估

对训练好的模型进行评估

1.5机器学习算法分类

1 监督学习

定义

输入数据是由输入特征和目标值所组成

  • 函数的输出可以是一个连续的值(称为回归)
  • 或是输出是有限个离散值(称作分类)
1.1回归问题

例如:预测房价,根据样本集拟合出一条连续曲线

1.2分类问题

例如:根据肿瘤特征判断良性还是恶性,得到的结果是“良性”或者“恶性”,是离散的

2无监督学习

定义:
输入数据是由输入特征组成,没有目标值

  • 输入数据没有被标记,也没=没有确定性的结果,样本数据类别未知;
  • 需要根据样本的相似性对样本进行类别分类

举例

有监督,无监督算法对比

3半监督学习

定义:

  • 训练集同时包含有标记的样本数据和未标记样本数据

举例:

监督学习训练方式:

半监督学习训练方式:

4强化学习

定义:

实质是 make decisions 问题,即自动进行决策,并且可以连续决策。

举例:

小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步还要迈出下一步。

小孩是agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转换到另一个状态(即他走的每一步),但当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力),并且当他不能走路时,就不会给巧克力。

主要包含五个元素:agent,action,reward,environment,observation;

强化学习的目标就是获得最多的奖励

监督学习和强化学习对比:
 

1.6模型评估

模型评估是模型开发过程中不可或缺的一部分,它有助于发现表达数据的最佳模型和所选模型将来工作性能如何。

按照数据集的目标值不同,可以把模型评估分为分类模型评估回归模型评估

1分类模型评估

准确率

  • 预测正确的数占总样本的比例。

其他评估指标:精确率、召回率、F1-scorre\AUC指标等。

2回归模型评估

均方根误差(RMSE)

  • RMSE是一个衡量回归模型误差率的常用公式,不过,它仅能比较误差是相同单位的模型

其他评价指标:相对平方误差、平均绝对误差、相对绝对误差

3拟合

模型评估用于评价训练好的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合。在训练过程中,你可能遇到一下问题:

训练数据训练的很好啊,误差也不大啊,为什么在测试集上面有问题呢?

当算法在某个数据集出现这种情况,可能出现了拟合问题。

3.1欠拟合

因为机器学习到了天鹅的特征太少,导致区分标准太粗糙,不能准确识别出天鹅。

欠拟合:模型学习的太过粗糙,连训练集中的样本数据特征关系都没学出来。

3.2过拟合

机器已经基本上能区别天鹅和其他动物了。然后很不巧已有的天鹅图片都是白色的,于是机器经过学习后,会认为天鹅的羽毛都是白色的,以后看到羽毛是黑色的天鹅就会认为不是天鹅。

过拟合:所建的机器学习模型或者深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现得不佳。

1.7Azure机器学习模型搭建实验(了解)

  • 15
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值