参考书目:
(1)机器学习基础-从入门到求职,胡欢武著,电子工业出版社;
(2)机器学习,周志华著,清华大学出版社(经典西瓜书)
1. 引言
机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法
2. 基本术语
数据集:包含多个示例(或样本)的集合,每个示例描述了一个事件或对象(如西瓜)。
示例/ 样本 :数据集中每条记录的具体实例,包含属性和相应的属性值。
属性 / 特征 :描述示例某方面表现的事项,具体特征的取值称为属性值 ,如“色泽”、“根蒂”、“敲声”等。
属性空间 / 样本空间 / 输入空间:所有可能的属性组合所形成的空间,用于描述数据中的不同实例。
特征向量:将每个示例表示为一个向量,包含其在各个属性上的取值,即一个示例的所有特征值构成的向量。
学习/训练:从数据中学得模型的过程。
训练数据/训练集:用于训练模型的数据集,其中的样本称为“训练样本”。
分类/ 回归
分类是预测离散值(如“好瓜”或“坏瓜”),回归是预测连续值(如西瓜成熟度)
二分类 / 多分类
二分类任务仅涉及两个类别,而多分类任务则涉及多个类别
正类 / 反类
在二分类任务中,正类为关注的类别,反类为其他类别
独立同分布
假设样本空间中的每个样本都是独立且同样分布的。
泛化
学得的模型在新样本上的适用能力,即模型的推广能力
监督学习:通过标记数据集进行训练,建立输入与输出之间的映射关系。常见任务包括分类和回归。
无监督学习 :在没有标记信息的情况下进行学习,通常用于发现数据内在的结构,如聚类。
3. 假设空间
归纳 :从具体的事实出发,推导出一般性的规律或概念。此过程常称为“泛化”。
演绎:从一般原理推导出具体情况,称为“特化”。
归纳学习
广义:指从样例中学习,包括所有基于样例的学习。
狭义:特指从训练数据中学得概念(概念学习)
假设空间:所有可能的假设集合,旨在寻找与训练集匹配的假设。
版本空间:与训练集一致的所有假设组成的集合,代表了对目标概念的多种可能描述。
特征选择: 在机器学习中,特征选择是分析训练样本并选择最能代表数据的属性的过程。特征的选择可能基于领域知识和数据分析结果,影响学习过程的有效性。
4. 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为"归纳偏好"
不同的归纳偏好会导致不同的模型选择
本专栏后面会学到的算法:
(1)回归分析算法:线性回归、非线性回归;
(2)分类算法:朴素贝叶斯、决策树(随机森林)、K近邻、支持向量机、神经网络、集成学习、深度学习;
(3)聚类算法:K-means聚类、层次聚类、密度聚类、谱聚类、高斯混合聚类;
( 4 )降维算法:主成分分析、线性判别分析、局部线性嵌入