机器学习基础

1、目前机器学习中的绝大部分方法基于概率统计方法,因此,统计学习=统计机器学习=机器学习

2、统计学习以数据为研究对象,是数据驱动的学科,其关于数据的基本假设是“同类数据具有一定的统计规律性”

3、统计学习的三要素包括模型的假设空间、模型选取的准则以及模型学习的算法,可概括为“模型+策略+算法

4、基本概念:

4.1 将输入与输出所有可能取值的集合分别称为输入空间输出空间

4.2 每个具体的输入为一个实例,通常由特征向量(feature vector)表示

4.3 所有特征向量存在的空间成为特征空间

4.4 一般,假设输入空间与特征空间为相同的空间

4.5 输入与输出对称为样本(sample)

4.6 回归问题、分类问题、标注问题(输入变量和输出变量均为变量序列的预测问题)

4.7 监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合成为假设空间,假设空间的确定意味着学习范围的确定

4.8 监督学习的模型分为由条件概率表示的概率模型,和由决策函数表示的非概率模型

4.9 损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏

4.10 学习的目标原本应该是选择期望风险最小的模型,但由于训练样本有限,只能选择经验风险最小化策略,但当样本容量很小时,经验风险最小化学习有可能会出现过拟合现象,此时可以追加表示模型复杂度的正则化项或者罚项,构造正则化项,即学习结构风险最小的模型

4.11 注意,统计学习方法中具体采用的损失函数未必是评估时使用的损失函数

4.12 过拟合,是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测的很好,但对位置数据预测的很差的现象。学习的目的在于进行最优的模型选择,即选取复杂度适当的模型,以达到测试误差最小的目的

4.13 时刻牢记下图:训练误差和测试误差与模型复杂度的关系



5、现有理论认为,对于分类识别,训练样本的数量不应小于特征空间维数的5-10倍,为了获取较高的分类正确率,则应保持在10倍以上

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值