机器学习简介

最新推荐文章于 2020-08-19 20:19:22 发布

loyalyonggang

最新推荐文章于 2020-08-19 20:19:22 发布

阅读量631

点赞数

分类专栏： Machine Learning 文章标签：机器学习

本文链接：https://blog.csdn.net/loyalyonggang/article/details/60149269

版权

Machine Learning 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

维基百科［英］
维基百科［中］

机器学习的定义

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究。
机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

一种经常引用的英文定义是：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

它类似于人工智能，涉及到处理一些数据和了解数据，并智能地作出反应。
它类似于统计学，涉及到运用高级公式来真正提供有意义的结果，以及比较、评估和汇总数据。
它类似于算法，处理一些数据输入，并提供一些输出。

机器学习涉及的领域

在交易行业，预测股票在未来几个月或几年内的表现，这样可以进行更合理的投资。
在教育行业，用来在教学早期来识别哪些学生可能无法毕业，或者无法完成课程，从而可以进行干预，及早提供帮助。
在医疗保健行业，识别患有某些疾病活着有患病风险的病人，提早进行预测，改善治疗。
图片和语音识别
垃圾邮件检测
诈骗监测
股票市场
教计算机下象棋
自动驾驶汽车
……

只要你google ：machine learning ＋ you like subject，你就会发现，机器学习无处不在。

学习形式分类

监督学习｜无监督学习｜加强学习

监督学习：计算机提供了由“教师”给出的示例输入和他们期望的输出，并且目标是学习将输入映射到输出的一般规则。

无监督学习：没有为学习算法给出标签，让它自己在其输入中找到结构。无监督学习本身可以是一个目标（发现数据中的隐藏模式）或者一种终结的方法（特征学习）。

加强学习：计算机程序与动态环境交互，在动态环境中它必须执行某一目标（例如驾驶车辆或对抗对手）。该计划在奖励和惩罚方面提供反馈，因为它导航其问题空间。

特征学习分类

监督特征学习｜非监督特征学习

监督特征学习：使用带标签的输入数据学习特征。实例包括监督神经网络，监督字典学习。

无监督特征学习：使用未标记的输入数据学习特征。实例包括：字典学习，独立成分分析，autoencoders，矩阵分解，和各种形式的聚类。

学习方法

决策树学习
决策树学习使用决策树作为预测模型，其将关于项目的观察结果映射到关于项目的目标值的结论。

关联规则学习
关联规则学习是一种用于发现大型数据库中变量之间感兴趣的关系的方法。

人工神经网络
一个人工神经网络（ANN）的学习算法，通常被称为“神经网络”（NN），是受的结构和功能方面的启发学习算法生物神经网络。计算根据人工神经元的互连组来构造，使用连接主义方法来计算来处理信息。现代神经网络是非线性统计数据建模工具。它们通常用于建模输入和输出之间的复杂关系，在数据中找到模式。

深度学习
在过去几年中，硬件价格下降和个人使用的GPU的开发促进了深度学习的概念的发展，深度学习由人工神经网络中的多个隐藏层组成。这种方法试图模拟人类大脑将光和声音处理成视觉和听觉的方式。深度学习的一些成功应用是计算机视觉和语音识别。

归纳逻辑编程
感应逻辑编程（ILP）是一种使用逻辑编程作为输入示例，背景知识和假设的统一表示的规则学习方法。给定已知背景知识的编码和表示为事实的逻辑数据库的一组示例，ILP系统将导出假设的逻辑程序，该逻辑程序需要所有正面和非负面示例。感应编程是相关领域，其考虑用于表示假设（而不仅仅是逻辑编程）的任何种类的编程语言，例如功能程序。

支持向量机
支持向量机（SVM）是用于分类和回归的一组相关的监督学习方法。给定一组训练示例，每个训练示例被标记为属于两个类别中的一个，SVM训练算法构建预测新示例是落入一个类别还是另一个类别的模型。

聚类
聚类分析是将一组观测值分配到子集（称为聚类），使得同一聚类内的观测根据一些预先指定的标准或标准是相似的，而来自不同聚类的观测是不相似的。不同的聚类技术对数据的结构做出不同的假设，通常由一些相似性度量定义并且例如通过内部紧致性（相同聚类的成员之间的相似性）和不同聚类之间的间隔来评估。其他方法基于估计的密度和图连通性。聚类是一种无监督学习的方法。

贝叶斯网络
贝叶斯网络，置信网络或有向无环图形模型是概率图形模型，其通过有向无环图（DAG）表示一组随机变量及其条件独立性。例如，贝叶斯网络可以表示疾病和症状之间的概率关系。给定症状，网络可以用于计算各种疾病的存在的概率。存在执行推理和学习的有效算法。

强化学习
强化学习关注代理人应该如何在一个环境中采取行动，以便最大限度地发挥长期奖励的一些概念。加强学习算法尝试找到一个策略，将世界的状态映射到代理在这些状态中应该采取的行动。加强学习不同于监督学习问题，因为不会呈现正确的输入/输出对，也不会明确地校正次优动作。

表示学习

相似性和公制学习

稀疏字典学习
在该方法中，数据被表示为基函数的线性组合，并且系数被假定为稀疏的。令x为d维数据，D为d × n矩阵，其中D的每列表示基函数。r是使用D表示x的系数。数学上，稀疏词典学习意味着求解 {\ displaystyle x \ approx Dr} {\ displaystyle x \ approx Dr}其中r是稀疏的。一般来说，假设n大于d，以允许稀疏表示的自由度。
学习字典和稀疏表示是强烈的NP-hard，也很难解决大约。对于稀疏的词典学习一种流行的启发式方法是K-SVD。
稀疏字典学习已经应用在几个上下文中。在分类中，问题是确定先前未见的数据属于哪些类。假设每个类的字典已经建立。然后，新的数据与该类相关联，使得它最好由相应的字典稀疏地表示。稀疏字典学习也已经应用于图像去噪。关键的想法是，干净的图像补丁可以由图像字典稀疏表示，但噪声不能。

遗传算法
遗传算法（GA）是模拟自然选择过程的搜索启发法，并且使用诸如突变和交叉的方法来产生新的基因型以期望找到给定问题的良好解决方案。在机器学习中，遗传算法在20世纪80年代和90年代找到了一些用途。反之亦然，机器学习技术已被用于改善的遗传和表现进化算法。

基于规则的机器学习
基于规则的机器学习是任何机器学习方法的一般术语，用于识别，学习或发展“规则”以存储，操纵或应用知识。基于规则的机器学习器的定义特征是识别和利用一组共同表示由系统捕获的知识的关系规则。这与通常识别可以普遍应用于任何实例以便进行预测的单个模型的其他机器学习器形成对比。基于规则的机器学习的方法包括学习分类系统，关联规则的学习，和人工免疫系统。

学习分类系统
学习分类器系统（LCS）是基于规则的机器学习算法的家族，其将发现组件（例如，通常为遗传算法）与学习组件（执行监督学习，强化学习或无监督学习）组合。他们试图确定一组依赖于上下文的规则，它们以分段方式共同存储和应用知识，以便进行预测。