监督学习
以已知结果的数据集作为训练样本。
基本流程:输入数据 -> 特征工程 -> 模型训练 -> 模型部署 -> 模型应用。
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示,也就是说学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射集合,这个集合就是假设空间。
假设空间的确定意味着学习范围的确定。
输入空间(Input Space)
将输入的所有可能取值的集合称作输入空间。
输出空间(Output Space)
将输出的所有可能取值的集合称作输出空间。
- 输入空间和输出空间可以是有限元素的集合,也可以是整个欧氏空间。
- 输入空间和输出空间可以是连续值集合,也可以是离散值集合。
- 输入空间和输出空间可以是同一个空间,也可以是不同空间。
- 输出空间通常比输入空间小。
特征(Feature)
特征:即属性,每个输入实例的各个组成部分(属性)称作原始特征,基于原始特征还可以扩展出更多的衍生特征。
特征是对一个事物的客观属性描述,也是一事物异于其他事物的特点。
于己而言,特征是某些突出性质的表现;于他而言,特征是区分事物的关键。
特征向量(Feature Vector)
由多个特征组成的集合,称作特征向量,x维。
特征空间(Feature Space)
将特征向量存在的空间称作特征空间。
- 特征空间中的每一维都对应了一个特征(属性)。
- 特征空间可以和输入空间相同,也可以不同。
- 需要将实例从输入空间映射到特征空间。
- 模型实际上是定义于特征空间之上的。
假设空间(Hypothesis Space)
由输入空间到输出空间的映射的集合,称作假设空间。
针对每一种可能的输入,都能找到一个映射,对应了输出空间中某个输出。
假设空间指的是问题所有假设组成的空间,可以把学习过程看作是在假设空间中搜索的过程,搜索目标是寻找与训练集“匹配”的假设。
版本空间:与训练集一致的“假设集合”。
特征工程
最大限度地从原始数据中提取特征以供算法和模型使用。
- 数据预处理:标准化、缩放、缺失值、变换、编码等
- 特征产生:结合业务数据,派生新的特征
- 特征选择:通过各种统计量、模型评分等,筛选合适的特征
- 降维:PCA、LDA等减少特征数量
CRISP-DM流程
十行代码感知机器学习:https://github.com/yyhsong/iMLearning/blob/master/hello_mLearning.py