前言
上课整理的笔记…
----------------------------------------正文分割线--------------------------------------------------------
目录
-
学习的概念
-
监督学习
-
损失函数与风险函数
-
模型评估与模型选择
-
正则化与交叉验证
-
泛化能力
-
生成模型与判别模型
-
分类、标注与回归问题
1.学习的概念
1.1 机器学习的发展历程
-
人工智能的发展
-
机器逻辑推理期 —— 机器做证明题
-
知识工程 —— 专家系统
-
学习期 —— 机器自己能够学习知识
-
-
机器学习
-
连接主义 —— 神经网络/感知机
-
符号主义 —— 决策树
-
统计学习 —— 支持向量机/核方法
-
连接主义 —— 深度学习
-
1.2 机器学习的定义
-
Herbert A. Simon: 如果一个系统能够通过执行某个过程改进它的 性能,这就是学习
-
Tom M. Mitchell:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E(假设用 P 来评估计算机程序在某些任务类 T 上 的性能,若一个程序通过利用经验 E 在 T 中任务上获得了性能改 善,则我们就说关于 T 和 P,该程序对 E 进行了学习 ) – 1997
1.3 机器学习的特点
-
以计算机及网络为平台
-
以数据为研究对象,数据驱动的学科
-
以对数据进行预测和分析为研究目的
-
以方法为中心
-
多学科交叉,涉及概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域
1.4 机器学习的目的
-
对数据进行预测与分析
-
特别是对未知新数据进行预测与分析
-
构建概率统计模型
-
总结:考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也考虑尽可能提高学习效率
1.5 机器学习方法
-
基于数据构建统计模型从而对数据进行预测与分析
-
包括监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)
-
监督学习:从给定的、有限的、用于学习的训练数据集合出发, 假设数据是独立同分布产生的;并且假设要学习的模型属于某个 函数的集合,称为假设空间(hypothesis space);应用某个评价 准则,从假设空间中选取一个最优的模型;最有模型的选取由算法实现
-
学习的三要素:模型(model)、策略(strategy)、算法 (algorithm)
1.6 机器学习方法的主要步骤
- 得到一个有限的训练数据集合;
- 确定包含所有可能的模型的假设空间,即学习模型的集合;
- 确定模型选择的准则,即学习的策略;
- 实现求解最优模型的算法,即学习的算法;
- 通过学习方法选择最优模型;
- 利用学习的最优模型对新数据进行预测与分析
2.监督学习
2.1监督学习的任务
学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测
2.2 基本概念
- 输入空间:输入所有可能取值的集合称之为输入空间(input space)
- 输出空间:输出所有可能取值的集合称之为输出空间(output space)
- 输入输出空间可以是同一个空间,也可以是不同空间
- 每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示
- 所有特征向量存在的空间称为特征空间(feature space),特征空间的每一维对应于一个特征
- 输入空间与特征空间可以相同,也可以不同;不同时,将实例从输入空间映射到特征空间
- 模型实际上都是定义在特征空间上的
…
2.3 联合概率分布
- 假设输入与输出的随机变量𝑋,Y 遵循联合概率分布 P(𝑋, Y)
- 训练数据与测试数据被看作是依联合概率分布 P(𝑋, Y) 独立同分布产生的
- 对于学习系统来说,联合概率分布的具体定义是未知的
2.4 假设空间
- 模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)
- 假设空间的确定意味着学习范围的确定
- 假设空间能够很好的防止过拟合,但是也带来了归纳偏置问题
2.5 西瓜问题
-
如何在不剖开西瓜的前提下判断一个瓜是好瓜还是坏瓜?目的
-
可以通过观察西瓜的色泽、根蒂,敲打西瓜的声音来判断 —— 假设空间
-
数据集:(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),……
-
每一条记录表示一个示例或样本,或一个特征向量
-
反映事件或对象在某个方面的表现或性质的事项称为属性或特征 —— 色泽
-
属性上的取值为属性值 —— 青绿
-
属性张成的空间称为属性空间、样本空间或者输入空间 —— 色泽、根蒂、敲声构成一个三维空间
-
样本“结果”的信息,((色泽=青绿;根蒂=蜷缩;敲声=浊响), 好瓜)
-
标记,关于示例结果的信息 —— 好瓜
-
所有标记的集合,称为标记空间,或输出空间
-
如果欲预测的是离散值“好瓜”、“坏瓜”,为分类问题
-
如果欲预测的是连续值,如西瓜的成熟度0.95,0.59等,是回归问题
-
如果将训练集中的西瓜分成若干组,例如浅色瓜、深色瓜等,称为聚类
-
如果训练集中没有标记,则为无监督学习,如果有标记则为监督学习
-
分类和回归是监督学习,而聚类则是无监督学习
2.6 问题的形式化
3.损失函数与风险函数
3.1损失函数
3.2 风险函数
3.3 经验风险
4.模型评估与模型选择
4.1 模型选择
4.2 模型选择的方法
-
正则化
-
交叉验证
4.3 模型评估方法
- 评估模型主要依靠测试集
- 一般将包含 m 个样例的数据集,通过一定的处理,从中产生出训 练集和测试集
- 常用的处理办法主要有三种:留出法、交叉验证和自助法
4.3.1 留出法
4.3.2 交叉验证法
4.3.3 自助法
4.4 参数调整
5.正则化与交叉验证
略
6.泛化能力
6.1 概念
6.2 二分类问题的泛化误差上届
7.生成模型与判别模型
8.分类、标注与回归问题
8.1 分类问题
8.2 P-R曲线
8.3 ROC与AUC
8.4 代价敏感错误率
8.5 代价曲线
8.6 假设检验
8.7 偏差-方差分解