机器学习基本概念

最新推荐文章于 2022-05-22 19:15:31 发布

豆子前端

最新推荐文章于 2022-05-22 19:15:31 发布

阅读量443

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41996454/article/details/104804566

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

前言

上课整理的笔记…

----------------------------------------正文分割线--------------------------------------------------------

目录

学习的概念
监督学习
损失函数与风险函数
模型评估与模型选择
正则化与交叉验证
泛化能力
生成模型与判别模型
分类、标注与回归问题

1.学习的概念

1.1 机器学习的发展历程

人工智能的发展
- 机器逻辑推理期 —— 机器做证明题
- 知识工程 —— 专家系统
- 学习期 —— 机器自己能够学习知识
机器学习
- 连接主义 —— 神经网络/感知机
- 符号主义 —— 决策树
- 统计学习 —— 支持向量机/核方法
- 连接主义 —— 深度学习

1.2 机器学习的定义

Herbert A. Simon: 如果一个系统能够通过执行某个过程改进它的性能，这就是学习
Tom M. Mitchell：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E（假设用 P 来评估计算机程序在某些任务类 T 上的性能，若一个程序通过利用经验 E 在 T 中任务上获得了性能改善，则我们就说关于 T 和 P，该程序对 E 进行了学习） – 1997

1.3 机器学习的特点

以计算机及网络为平台
以数据为研究对象，数据驱动的学科
以对数据进行预测和分析为研究目的
以方法为中心
多学科交叉，涉及概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域

1.4 机器学习的目的

对数据进行预测与分析
特别是对未知新数据进行预测与分析
构建概率统计模型
总结：考虑学习什么样的模型和如何学习模型，以使模型能对数据进行准确的预测与分析，同时也考虑尽可能提高学习效率

1.5 机器学习方法

基于数据构建统计模型从而对数据进行预测与分析
包括监督学习（supervised learning）、非监督学习（unsupervised learning）、半监督学习（semi-supervised learning）和强化学习（reinforcement learning）
监督学习：从给定的、有限的、用于学习的训练数据集合出发，假设数据是独立同分布产生的；并且假设要学习的模型属于某个函数的集合，称为假设空间（hypothesis space）；应用某个评价准则，从假设空间中选取一个最优的模型；最有模型的选取由算法实现
学习的三要素：模型（model）、策略（strategy）、算法（algorithm）

1.6 机器学习方法的主要步骤

得到一个有限的训练数据集合；
确定包含所有可能的模型的假设空间，即学习模型的集合；
确定模型选择的准则，即学习的策略；
实现求解最优模型的算法，即学习的算法；
通过学习方法选择最优模型；
利用学习的最优模型对新数据进行预测与分析

2.监督学习

2.1监督学习的任务

学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测

2.2 基本概念

输入空间：输入所有可能取值的集合称之为输入空间（input space）
输出空间：输出所有可能取值的集合称之为输出空间（output space）
输入输出空间可以是同一个空间，也可以是不同空间
每个具体的输入是一个实例（instance），通常由特征向量（feature vector）表示
所有特征向量存在的空间称为特征空间（feature space），特征空间的每一维对应于一个特征
输入空间与特征空间可以相同，也可以不同；不同时，将实例从输入空间映射到特征空间
模型实际上都是定义在特征空间上的

… 在这里插入图片描述

2.3 联合概率分布

假设输入与输出的随机变量𝑋，Y 遵循联合概率分布 P(𝑋, Y)
训练数据与测试数据被看作是依联合概率分布 P(𝑋, Y) 独立同分布产生的
对于学习系统来说，联合概率分布的具体定义是未知的

2.4 假设空间

模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间（hypothesis space）
假设空间的确定意味着学习范围的确定
假设空间能够很好的防止过拟合，但是也带来了归纳偏置问题

2.5 西瓜问题

如何在不剖开西瓜的前提下判断一个瓜是好瓜还是坏瓜？目的
可以通过观察西瓜的色泽、根蒂，敲打西瓜的声音来判断 —— 假设空间
数据集：（色泽=青绿；根蒂=蜷缩；敲声=浊响），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），（色泽=浅白；根蒂=硬挺；敲声=清脆），……
每一条记录表示一个示例或样本，或一个特征向量
反映事件或对象在某个方面的表现或性质的事项称为属性或特征 —— 色泽
属性上的取值为属性值 —— 青绿
属性张成的空间称为属性空间、样本空间或者输入空间 —— 色泽、根蒂、敲声构成一个三维空间
样本“结果”的信息，（（色泽=青绿；根蒂=蜷缩；敲声=浊响），好瓜）
标记，关于示例结果的信息 —— 好瓜
所有标记的集合，称为标记空间，或输出空间
如果欲预测的是离散值“好瓜”、“坏瓜”，为分类问题
如果欲预测的是连续值，如西瓜的成熟度0.95，0.59等，是回归问题
如果将训练集中的西瓜分成若干组，例如浅色瓜、深色瓜等，称为聚类
如果训练集中没有标记，则为无监督学习，如果有标记则为监督学习
分类和回归是监督学习，而聚类则是无监督学习

2.6 问题的形式化

在这里插入图片描述

3.损失函数与风险函数

3.1损失函数

在这里插入图片描述

3.2 风险函数

在这里插入图片描述

3.3 经验风险

在这里插入图片描述

4.模型评估与模型选择

4.1 模型选择

在这里插入图片描述

在这里插入图片描述

4.2 模型选择的方法

正则化
交叉验证

4.3 模型评估方法

评估模型主要依靠测试集
一般将包含 m 个样例的数据集，通过一定的处理，从中产生出训练集和测试集
常用的处理办法主要有三种：留出法、交叉验证和自助法

4.3.1 留出法

在这里插入图片描述

4.3.2 交叉验证法

在这里插入图片描述

4.3.3 自助法

在这里插入图片描述

4.4 参数调整

在这里插入图片描述

5.正则化与交叉验证

略

6.泛化能力

6.1 概念

在这里插入图片描述

6.2 二分类问题的泛化误差上届

在这里插入图片描述

7.生成模型与判别模型

在这里插入图片描述

8.分类、标注与回归问题

8.1 分类问题

在这里插入图片描述

8.2 P-R曲线

在这里插入图片描述

8.3 ROC与AUC

在这里插入图片描述

8.4 代价敏感错误率

在这里插入图片描述

8.5 代价曲线

在这里插入图片描述

8.6 假设检验

在这里插入图片描述

8.7 偏差-方差分解

在这里插入图片描述

8.8 回归任务中的偏差-方差分解

在这里插入图片描述

8.9 回归问题

在这里插入图片描述

8.10 标注问题

在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。