ML笔记 - 机器学习基本概念

监督学习
以已知结果的数据集作为训练样本。
基本流程:输入数据 -> 特征工程 -> 模型训练 -> 模型部署 -> 模型应用。
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示,也就是说学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射集合,这个集合就是假设空间。
假设空间的确定意味着学习范围的确定。

输入空间(Input Space)
将输入的所有可能取值的集合称作输入空间。
输出空间(Output Space)
将输出的所有可能取值的集合称作输出空间。

  • 输入空间和输出空间可以是有限元素的集合,也可以是整个欧氏空间。
  • 输入空间和输出空间可以是连续值集合,也可以是离散值集合。
  • 输入空间和输出空间可以是同一个空间,也可以是不同空间。
  • 输出空间通常比输入空间小。

特征(Feature)
特征:即属性,每个输入实例的各个组成部分(属性)称作原始特征,基于原始特征还可以扩展出更多的衍生特征。
特征是对一个事物的客观属性描述,也是一事物异于其他事物的特点。
于己而言,特征是某些突出性质的表现;于他而言,特征是区分事物的关键。
特征向量(Feature Vector)
由多个特征组成的集合,称作特征向量,x维。
特征空间(Feature Space)
将特征向量存在的空间称作特征空间。

  • 特征空间中的每一维都对应了一个特征(属性)。
  • 特征空间可以和输入空间相同,也可以不同。
  • 需要将实例从输入空间映射到特征空间。
  • 模型实际上是定义于特征空间之上的。

假设空间(Hypothesis Space)
由输入空间到输出空间的映射的集合,称作假设空间。
针对每一种可能的输入,都能找到一个映射,对应了输出空间中某个输出。
假设空间指的是问题所有假设组成的空间,可以把学习过程看作是在假设空间中搜索的过程,搜索目标是寻找与训练集“匹配”的假设。
版本空间:与训练集一致的“假设集合”。

特征工程
最大限度地从原始数据中提取特征以供算法和模型使用。

  • 数据预处理:标准化、缩放、缺失值、变换、编码等
  • 特征产生:结合业务数据,派生新的特征
  • 特征选择:通过各种统计量、模型评分等,筛选合适的特征
  • 降维:PCA、LDA等减少特征数量

CRISP-DM流程
在这里插入图片描述


十行代码感知机器学习:https://github.com/yyhsong/iMLearning/blob/master/hello_mLearning.py

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值