机器学习入门:一文让你快速了解机器学习

https://www.toutiao.com/a6643049800176501261/

 

2019-01-06 08:01:00

机器学习是人工智能(AI)研究和应用的一个分支,它是一门“古老”又“新兴”的计算机科学技术。早在1950年,图灵在发表的论文《计算及其与智能》中提出了“图灵测试”,用来判断机器是否具备人工智能的标准。

机器学习入门:一文让你快速了解机器学习

 

图灵测试:“如果通过问答这种方式,我们已经无法区分对话那端到底是机器还是人类,那么就可以说这样的机器已经具备人工智能”

机器学习发展历程

从20世纪50年代开始,人工智能进入“推理期”,该阶段通过赋予机器逻辑推理能力使机器获得智能,当时的AI程序能够证明一些著名的数学定理,但由于机器缺乏知识,远不能实现真正的智能。因此,70年代,人工智能进入了“知识期”,该阶段主要是总结人类的知识,并将知识灌入机器,从而使机器获得智能。在这一阶段,大量的专家系统问世,在许多领域取得很大的成果,但是由于人类的知识量巨大,故出现了“知识工程瓶颈”。 无论是“推理期”还是“知识期”,机器都是按照人类设定的规则和总结的知识运作,永远无法超越其创造者,另外人力资源成本太高,不适合人工智能的进一步发展。

机器学习入门:一文让你快速了解机器学习

 

需要转换思路进行探索,这个思路就是“机器学习(Machine Learning)”,至此人工智能进入“机器学习时期”。“机器学习时期”也分为三个阶段:

  1. 80年代,连接主义较为流行,代表工作有感知机(Perceptron)和神经网络(Neural Network)。
  2. 90年代,统计学习方法开始占据主流舞台,代表性方法有支持向量机(Support Vector Machine)
  3. 进入21世纪,深度神经网络被提出,连接主义卷土从来,随着数据量和计算能力的不断提升,以深度学习(Deep Learning)为基础的诸多AI应用逐渐成熟。

机器学习系统特点

从机器学习的各个阶段来看,我们可以总结出机器学习系统具备如下特点

  • ① 机器学习系统所解决的都是无法直接使用固定规则或流程代码完成的问题,通常这些问题都是人类很轻易都能做到的;
  • ② 具备“学习”能力的程序都是指它能够不断地从历史数据中吸取教训,从而应对未来的预测任务。
  • ③ 机器学习系统具备不断改善自身应对具体任务的能力。

机器学习入门:一文让你快速了解机器学习

 

机器学习的经典定义来自于美国卡内基梅隆大学的著名教授Tom Mitchell,定义如下:

如果一个程序在使用既有经验(E)执行某类任务(T)的过程中被认定是“具备学习能力的”,那么它一定需要展现出:利用现有经验(E),不断改善其完成既定任务(T)的性能(P)的特质。

下面重点介绍一下机器学习三要素:任务(T)、经验(E)、性能(P)

机器学习任务(T)

机器学习的任务分类有三种,分别是监督学习、无监督学习 和半监督学习,其中半监督学习可以理解为部分监督 和 部分无监督的学习,本文将重点介绍前两种。

机器学习入门:一文让你快速了解机器学习

 

监督学习

监督学习主要关注对事物未知表现的预测,一般分为分类问题(classification) 和 回归问题(regression)。

分类问题:是对其所在的类别进行预测。类别是离散的,同时预先知道数量的。比如:通过身高、体重、三围、穿衣情况 预测这个人的性别。
回归问题:同样是预测问题,只是预测的目标是连续的变量。例如:通过性别、体重、身高、年龄 预测基础代谢率(BMR)。

无监督学习

无监督学习倾向于对事物本身特性的分析,常用的技术包括数据降维(dimensionality Reduction) 和 聚类问题(clustering)等。

数据降维:是对事物的特征进行压缩和筛选,比如人脸识别任务中,我们通常会使用降维技术对图像进行降维,保留最具有区分度的像素组合。
聚类:依赖于数据的相似性,把相似的数据划分为一类。但大多数情况下,我们不知道类的个数及类的含义。比如根据股票的价格、成交量等进行聚类,看看是否统计出相似的股票集群。

机器学习经验(E)

机器学习经验就是我们所说的数据。并不是所有的信息对学习任务都有用,通常把这些反映数据内在规律的信息叫做特征(Feature)。比如 人脸图识别任务并不是把图像最原始的像素信息直接交给学习系统,而是通过降维和其他数据处理方法得到更加有利特征。

机器学习入门:一文让你快速了解机器学习

 

监督学习数据

监督学习使用的数据,包括特征和目标(Label/Target)两个部分。我们一般用一个特征向量(Feature Vector)来描述一个数据样本,目标的表现形式则取决于监督学习的种类。

无监督学习数据

无监督学习使用的数据没有目标,因此也无法从事预测任务,因此只能对数据结构进行分析。正是因为无监督数据的没有目标,所以不用耗费大量的时间、金钱和人力,所以数据量相对较多。

另外,除了目标的表现形式存在离散、连续变量的区别,从原始数据到特征向量转化的过程中也会遇到多种数据类型:类别型(Categorical)特征、数值型(Numerical)特征,甚至是缺失的数据(Missing Value)等。实际操作过程中,我们都需要把这些特征转化为具体的数值参与运算。

机器学习性能(P)

机器学习性能是评价所完成任务质量的指标。为了评价学习模型完成任务的质量,需要将模型的预测结果同正确答案进行对比。我们称这样的数据集为测试集。

另外出现在测试集中的数据样本一定不能被用于模型训练,否则会出现过拟合现象。简而言之,训练集与测试集之间应该是彼此互斥的。

机器学习入门:一文让你快速了解机器学习

 

对待预测性质的问题,需要关注预测的精准度。分类问题,我们要根据预测正确类别的百分比来评价其性能,这个指标通常被称作准确性(Accuracy);而回归问题则无法使用类似的指标,通常会衡量预测值与实际值之间的偏差大小来进行判断。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值