机器学习基本概念
机器学习的实质:
输入空间到输出空间中的各种假设所形成的假设空间中去搜索一个假设,这个假设对当前数据的适合情况跟拟合情况是最好,这一过程就是机器学习.
机器学习三要素:
机器学习由模型,策略,算法三部分组成.
1, 模型:确定学习范围
输入空间到输出空间的映射关系.学习过程即为从假设空间中搜索当前合适的假设.
2, 策略:确定学习规则
从假设空间中众多的假设中选择最优的模型学习标准或准则.
3, 算法:按规则在范围内学习
学习模型的具体计算方法,通常是求解最优化问题.
模型:
分析当前要解决的问题,确定模型
根据需要解决的问题分为:
1, 预测分类 (分类) 2,预测取值 (回归) 3,发现结构 (聚类) 4, 发现异常数据 (异常检测)
策略:
从假设空间众多假设中选择一个最合适的模型出来,需要解决以下问题:
1, 评估某个模型对单个训练样本的结果.
2, 评估某个模型对训练集的整体效果.
3, 评估某个模型对包括训练集,测试集在内的所有数据的整体效果.
定义几个指标来衡量上述的问题:
1, 损失函数: 0-1损失函数,平方损失函数,绝对值损失函数,对数损失函数等.
2, 风险函数: 经验风险,期望风险,结构风险.
基本策略
1,经验风险最小 (EMR:Empirical Risk Minimization)
2,机构风险最小 (SRM:Structure Risk Minimization)
损失函数 (Loss Function):
用来衡量预测真实值与结果之间的差距. 其值越小,说明预测结果与真实结果越接近.通常是一个非负实值函数.
通过各种方式缩小损失函数的过程叫做优化.
损失函数记作 L(Y,f(x))