机器学习方法流程
主要分为以下几步:
- 输入数据
- 特征工程
- 模型训练:建模
- 模型部署
- 模型应用:如预测
基本概念
- Input Space:输入的所有可能取值的集合称作输入空间
- Output Space: 输出的所有可能取值的集合称作输出空间
- Feature:即属性。每个输入实例的各个组成部分(属性)称作原始特征,基于原始特征还可以扩展出更多的衍生特征
- Feature Vector:多个特征组成的集合,称作特征向量
- Feature Space:特征向量存在的空间,称作特征空间
- Hypothesis Space:由输入空间到输出空间的映射的集合,称作假设空间
1.The hypothesis space, which defines the class of functions mapping the input space to the output space. That is, the functions operate on the feature vectors of the input objects, and make predictions according to the format of the output space.
2.假设空间指的是:问题所有假设所组成的空间,我们可以把学习过程看作是在假设空间中搜索的过程,搜索目标是寻找与训练集“匹配”的假设。——周志华《机器学习》
推荐用书 《统计学方法》以及周志华老师的西瓜书
机器学习三要素
- 模型:输入空间到输出空间的映射关系。学习过程即从假设空间中搜索适合当前数据的假设。
- 策略:从假设空间众多假设中选择最优的模型的学习标准或规则。
- 评估某个模型对单个训练样本的效果
- 评估某个模型对训练集的整体效果
- 评估某个模型对包括训练集、预测集在内的所有数据的整体效果
策略效果的衡量使用:损失函数(Loss Function)
损失函数:用来衡量预测结果和真实结果之间的差距,其值越小,代表预测结果和真实结果越一致。通常是一个非负实值函数。通过各种方式缩小损失函数的过程被称作优化。损失函数记作:L(Y,f(x))。
- 0-1 损失函数:下图中,T为自定义的阈值
- 绝对值损失函数:预测值与真实值差的绝对值。
- 平方损失函数:预测值与真实值差的平方。
- 对数损失函数/对数似然损失函数:对数函数具有单调性,在求最优化问题时,结果与原始目标一致。可将乘法转化为加法,简化计算。
- 指数损失函数:单调性,非负性的优良性质,使得越接近正确结果误差越小。
- 折叶损失函数/铰链损失函数:对于判定边界附近点的惩罚力度较高,常见于SVM。
损失函数的适用场景
- 0-1:理想状况模型
- Log:逻辑回归,交叉熵
- Squared:线性回归
- Exponential:AdaBoosting
- Hinge(折叶):SVM、soft margin
经验风险:将整个训练集所有记录均进行一次与猜测,求取损失函数,将所有值累加,即为经验风险。经验风险越小说明模型f(x)对训练集的拟合程度越好。(对局部,即训练集)
公式为:
R