机器学习简介

sereasuesue

于 2019-04-28 11:19:08 发布

阅读量118

点赞数

分类专栏：数据分析文章标签：机器学习简介

数据分析专栏收录该内容

23 篇文章 8 订阅

订阅专栏

第一章机器学习简介

机器学习，发明计算机算法，把数据转化为智能行为。（核心循环的三者：现有数据；统计方法；计算能力）

数据挖掘，从大型数据库中产生新的洞察，侧重寻找有价值的信息；机器学习侧重于执行一个已知的任务。

1.2 学习理论

定义：如果机器能够获取经验并且能利用它们，在以后的类似经验中能够提高它的表现，这种行为就是机器的学习。

学习过程：

数据输入，观察（抽象并提取信息），记忆（将信息存储在大脑的某个文件里），回忆（打开大脑里的文件）
抽象化，将数据转换成更宽泛的表现形式
一般化，应用抽象数据来形成行动的基础
举例：学习&考试

过目不忘并不是一种本领，而是一种低级的作弊方式，你没有深刻理解知识，数据本身并不能为你做出决策；必须理解核心概念（建立大纲、概念图），明确信息之间的关系，以主题为中心（这就是知识抽象化）。一般化，需要大量抽象数据，理解如何将已有知识应用到未知场景中（好的老师能做到这两点）。

1.2.1 抽象化和知识表达

原始数据是没有意义的，仅仅是一些01或符号而已，抽象化赋予数据以具体含义。

idea 和 reality，只是语言的抽象连接。

知识表达中，将原始数据概括在一个模型里，该模型就是数据间结构化的显式描述。（方程，图表，分类都是模型）

学习的任务和所分析数据的类型决定选择使用什么模型。

用一个特定的模型来拟合数据集的过程称为训练（还没达到学习，这还只是抽象化，学习还包括一般化）。

当模型被训练后，数据转换为一个汇总了原始信息的抽象形式。模型提供了数据之间的关系或联系。

1.2.2 一般化

抽象化过程中可能发现无数的内在关系，有多种方法可以对内在关系建模（集合），为了预测，必须选定模型。

定义：一般化描述了把抽象化的知识转换成可以用于行动的形式。是训练过程中对所有可用于数据抽象化的模型的搜索过程。

一般不会遍历每一种可能来确定模型，而是用启发式方法。

偏差，就是系统误差，是模型与真实值之间的差距。偏差是普遍存在的。

一般化的最后一步就是在存在偏差的情况下判断模型的成功性。

数据中必然存在噪音，模型不能拟合噪音而造成过度拟合，模型处理噪音数据的好坏是判断模型成功与否的重要方面。

应用机器学习的步骤

收集数据，数据的多种来源

探索数据和准备数据，这一步需要大量人工干预，80%精力花费在此。

基于数据训练模型，模型，算法，表示数据

评价模型性能，每个模型会产生一个学习问题的有偏差的解决方法。能用一个测试集来评价模型的精确度。

改进模型

1.4 选择机器学习算法

要权衡学习数据的特征和可以使用方法的偏差。理解所分析数据的类型和任务。

1.4.1 输入的数据

几乎所有的输入数据都是以样本（example）和特征值（feature）组成的表格。

特征有多种形式：数值型特征，分类变量，有序变量（有序的，如大中小）是一种特殊的分类变量。

1.4.2 机器学习算法的类型

监督学习，建立预测模型，利用数据集中的其他数值来预测另一个值。发现并且建模目标特征和其他特征之间的关系。目标值担任监督的角色，告诉机器学习的任务是什么。给定训练集，学习算法会最优化一个模型（函数）来找出属性值之间的组合方式，最终给出目标值。常见的有分类，回归分析。

无监督学习，建立描述模型，没有学习目标。模式发现，购物篮分析，聚类，

1.4.3 为数据匹配合适的算法

模型	任务	章节
有监督学习算法
近邻法	分类	3
朴素贝叶斯	分类	4
决策树	分类	5
分类器	分类	5
线性回归	数值预测	6
回归树	数值预测	6
模型树	数值预测	6
神经网络	双重	7
支持向量机	双重	7
无监督学习
关联规则	模式识别	8
k均值聚类	聚类	9

1.5 使用R进行机器学习

sereasuesue

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习简介

第一章机器学习简介机器学习，发明计算机算法，把数据转化为智能行为。（核心循环的三者：现有数据；统计方法；计算能力）数据挖掘，从大型数据库中产生新的洞察，侧重寻找有价值的信息；机器学习侧重于执行一个已知的任务。1.2 学习理论定义：如果机器能够获取经验并且能利用它们，在以后的类似经验中能够提高它的表现，这种行为就是机器的学习。学习过程：数据输入，观察（抽象并提取信...
复制链接

扫一扫