1机器学习概述概念

目录

1.1基础概念

1.2机器学习与人脑学习

1.3作用领域

1.4基本术语

1.5机器学习分类

1.5.1基于学习策略的分类

1.5.2基于学习方法的分类

1.5.3基于学习方式的分类

1.5.4基于数据形式的分类

1.5.5基于学习目标的分类

1.6机器学习应用开发的典型步骤

1.6.1定义问题

1.6.2数据采集

1.6.3数据清洗

1.6.4特征选择与处理

1.6.5训练模型

1.6.6模型评估与调优

1.6.7模型使用

 


你不会的东西,觉得难的东西,一定不要躲,先搞明白,后精湛,你就比别人优秀了。因为大部分人都不舍得花力气去钻研,自动淘汰,所以你执着的努力,就占了大便宜。

——稻盛和夫

1.1基础概念

机器学习是一种从数据中发现复杂规律,并且利用规律对未来时刻、未知状况进行预测和判定的方法。机器学习理论主要是设计和分析让计算机可以自动“学习”的算法。

(1) Langley (1996):“是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。

(2) Tom Mitchell (1997):“是对能通过经验自动改进的计算机算法的研究”。

(3) Alpaydin(2004):“是用数据或以往经验,优化计算机程序的性能标准”。

机器学习跟模式识别、统计学习、数据挖掘类似,同时机器学习与其他领域的处理技术相结合,形成了计算机视觉、语音识别、自然语言处理等交叉学科。

机器学习是人工智能及模式识别领域的共同研究热点,其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。

1.2机器学习与人脑学习

对于机器学习,我们通过历史数据进行训练模型,将新的数据输入通过模型预测未知属性。对于人脑学习,我通过经验归纳出规律,遇到新的问题时通过规律预测未来。机器学习和人脑学习大致流程是一样的。

1.3作用领域

机器学习作用于模式识别、计算机视觉、数据挖掘、语音识别、统计学习、自然语言处理。

1.4基本术语

数据集(Dataset):数据是进行机器学习的基础,所有数据的集合称为数据集。

样本 (Sample):数据集中每条记录是关于一个事件或对象的描述,称为样本。

属性(Attribute)或特征(Feature):每个样本在某方面的表现或性质。

特征向量(Feature Vector):每个样本的特征对应的特征空间中的一个坐标向量。

学习(Learning或训练Training):执行某个学习算法,从数据中学得模型的过程。

训练数据(Training Data):训练过程中使用的数据。

训练样本(Training Sample):训练数据的每个样本。

训练集(Training Set):训练样本组成的集合。

标记(Label):训练数据中可能会指出训练结果的信息。

分类(Classification):使用计算机学习出的模型进行预测得到的是离散值。

回归(Regression) :使用计算机学习出的模型进行预测得到的是连续值。

测试(Test):学习到模型后,使用其进行预测的过程。

泛化能力(Generalization) :学习到的模型适用于新样本的能力。

1.5机器学习分类

1.5.1基于学习策略的分类

(1)模拟人脑的机器学习

符号学习、神经网络学习(或连接学习)

(2)直接采用数学方法的机器学习

统计机器学习是基于对数据的初步认识以及学习目的的分析,选择合适的数学模型,拟定超参数,并输入样本数据,依据一定的策略,运用合适的学习算法对模型进行训练,最后运用训练好的模型对数据进行分析预测。

1.5.2基于学习方法的分类

(1)归纳学习

(2)演绎学习。

(3)类比学习典型的类比学习有案例(范例)学习。

(4)分析学习

1.5.3基于学习方式的分类

(1)监督学习(有导师学习): 在建立预测模型的过程中将预测结果与训练数据的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。

典型例子:分类和回归任务、决策树、贝叶斯模型、支持向量机、深度学习。

(2)无监督学习(无导师学习):数据并不被特别标识,计算机自行学习分析数据内部的规律、特征等进而得出一定的结果(如内部结构、主要成分等)。

典型例子:聚类算法。

(3)半监督学习:介于监督学习和非监督学习之间,输入数据部分被标识,部分没有被标识,没标识数据的数量常常远远大于有标识数据数量。这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。

(4)强化学习(增强学习):基于与环境的交互进行学习。通过尝试来发现各个动作产生的结果,对各个动作产生的结果进行反馈(奖励或惩罚)。在这种学习模式下,输入数据直接反馈到模型,模型必须作出调整。

1.5.4基于数据形式的分类

(1)结构化学习:以结构化数据为输入,以数值计算或符号推演为方法。典型的结构化学习有神经网络学习、统计学习、决策树学习和规则学习.

 (2)非结构化学习:以非结构化数据为输入,典型的非结构化学习有类比学习、案例学习、解释学习、文本挖掘、图像挖掘和Web挖掘等。

1.5.5基于学习目标的分类

(1)概念学习

(2)规则学习 

(3)函数学习

(4)类别学习 

(5)贝叶斯网络学习

1.6机器学习应用开发的典型步骤

1.6.1定义问题

先明确需要解决的问题。在实际应用中,很多时候得到的并非是一个明确的机器学习任务,而只是一个需要解决的问题。

1.6.2数据采集

数据采集是机器学习应用开发的基础。人工收集数据,例如预测房屋价格,可以从房屋相关的网站上获取数据、提取特征并进行标记,人工收集数据耗时较长且非常容易出错。所以通常是其他方法都无法实现时才会采用。

1.6.3数据清洗

通过数据采集得到的原始数据可能并不规范,需对数据进行清洗才能满足使用需求。

1.6.4特征选择与处理

特征选择是在原始特征中选出对模型有用的特征,去除数据集中与模型预测没有太大关系的特征。

1.6.5训练模型

特征数据准备完成后。即可根据具体任务选择合适的模型并进行训练。

1.6.6模型评估与调优

不管是监督学习还是无监督学习,模型训练完毕后都需要对模型结果进行评估,监督学习可采用测试集数据对模型算法精度进行评估。

1.6.7模型使用

调优之后得到的最优模型一般会以文件的形式保存起来(TensorFlow的以.h5文件保存模型),应用时可直接加载使用。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值