机器学习基本概念
机器学习方法流程
输入与输出空间
输入空间:将输入所有可能取值的集合称为输入空间
输出空间:将输出所有可能取值的集合称为输出空间
通过父亲身高推测儿子的身高
则父亲身高所有可能取值的集合就是输入空间
儿子身高所以可能取值的集合就是输出空间
泰坦尼克生还预测
输入空间是由多个纬度组成
Survived就是输出空间
- 输入空间和输出空间可以是有限元素的集合,也可以是整个欧式空间
- 输入空间和输出空间可以是连续值集合也可以是离散值集合
- 输入空间和输出空间可以是同一个空间,也可以是不同空间
- 通常输出空间会比输入空间小
特征空间
特征:就是属性,输入的实例的各个组成部分(属性)叫做原始特征(原始值),基于原始特征可以扩展出更多的衍生特征。
特征向量:有多个特征组成的集合叫做特征向量。
身高预测
泰坦尼克预测
特征空间:将特征向量存在的空间称为特征空间。
若只输入sex age 则特征空间就是sex age所有组合的取值
还可以通过票价衍生出票的种类 c_level就是衍生特征
- 特征空间中每一维都对应了一个特征(属性)
- 特征空间可以和输入空间相同也可以不同
- 需要将实例从输入空间映射到特征空间中
- 模型实际上定义于特征空间之上的
假设空间
假设空间:输入空间到输出空间映射的集合
下面找了几个机器学习书上的解释
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。 换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定。 --李航 《统计学习方法》
假设空间指的是问题所有假设组成的空间,我们可以把学习过程看作是在假设空间中搜索的过程,搜索目标是寻找与训练集“匹配”的假设。 --周志华《机器学习》
例如 某商品的浏览、购买记录中, 记录了性别、信用度及是否购买,基于数据建模。其中Gender取值为{ Female,Male }Credit取值为{ High, Mediun, Low},Buy的取值为{ TRUE, FALSE}
数据如下图
Gender Credit为输入空间
Buy 为输出空间
输入空间中所有可能出现的组合为 2*3=6
列表如下
Gender | Credit |
---|---|
Female | High |
Female | Mediun |
Female | Low |
Male | High |
Male | Mediun |
Male | Low |
上述每种组合的结果都可能有两个 TRUE, FALSE
Gender | Credit | Buy |
---|---|---|
Female | High | TRUE |
Female | High | FALSE |
Female | Mediun | TRUE |
Female | Mediun | FALSE |
Female | Low | TRUE |
Female | Low | FALSE |
Male | High | TRUE |
Male | High | FALSE |
Male | Mediun | TRUE |
Male | Mediun | FALSE |
Male | Low | TRUE |
Male | Low | FALSE |
上表中每种组合抽出其中一种结果,组成一个假设
例如
Gender | Credit | Buy |
---|---|---|
Female | High | TRUE |
Female | Mediun | FALSE |
Female | Low | FALSE |
Male | High | TRUE |
Male | Mediun | FALSE |
Male | Low | TRUE |
则所有假设的个数共有 2 6 2^6 26
一般还会有一个全空的假设
所有假设的个数是 2 6 2^6 26+1
所以假设空间H中的假设个数为
M
M
M 为输出空间,
N
i
N_i
Ni 为输入空间
建模是为了在假设空间中找出一个最符合输入空间的假设,用此假设作为模型对新的数据进行预测
[music:1840192925]