统计学习基础 脑图查看效果更好 统计学习 机器学习:统计机器学习 基本假设:同类数据(某种共同性质的数据)具有一定的统计规律性 目的:对数据预测与分析 方法:基于数据构建统计模型 包括监督学习、非监督学习、半监督学习、强化学习等 步骤: (1)有限训练数据集 (2)学习模型集合(所有可能模型的假设空间) (3)确定学习策略–模型选择准则 (4)学习算法–求解最优模型 (5)使用模型对数据进行预测或分析 监督学习 输入(出)空间:输入(出)所有可能取值的集合 特征空间:输入实例由特征向量表示,所有特征向量存在的空间即为特征空间 基本假设:输入X输出Y遵循联合概率分布P(X, Y)分布函数 训练数据与测试数据被看做是依赖联合概率分布P(X, Y)独立同分布产生 目的:学习一个由输入到输出的映射,由模型来表示 假设空间:模型属于输入空间到输出空间映射的集合,这个集合就是假设空间 监督学习的模型分两种 概率模型:由条件概率分布P(X, Y)表示 非概率模型:由决策函数Y = f(X)表示 统计学习三要素 表示: 方法 = 模型 + 策略 + 算法 模型 假设空间 定义为决策函数集合 X Y 是输入输出空间的变量 策略 损失函数和风险函数 0-1损失函数 平方损失函数 绝对损失函数 对数损失函数(对数似然损失函数) 损失函数的期望–称为风险函数或期望损失 经验风险 结构风险 = 经验风险+正则化项(罚项) 最优化 经验风险最小化–过拟合–例子:极大似然估计:模型=条件概率分布,损失函数=对数损失函数 结构风险最小化=正则化 算法 求解最优化问题 存在显示解析解:简单易解决 不存在:数值计算方法求解,难点-全局最优解,高效 模型评估与模型选择 训练误差与测试误差 训练误差 = 经验风险 测试误差 过拟合与模型选择 过拟合:模型复杂度过高,对已知数据预测很好,对未知数据预测很差 训练误差和测试误差与模型复杂度关系 正则化与交叉验证 正则化 结构风险最小化策略–经验风险+正则化项 交叉验证 简单交叉验证 随机切分两份 S折交叉验证 留一交叉验证 S=N时的特殊情况 泛化能力 泛化误差 使用学到的模型对为主数据预测的误差 泛化误差上界 是样本容量的函数:样本容量增加–泛化误差上界趋于0 是假设空间容量的函数:假设空间越大–模型难学–泛化误差上界越大 生成模型和判别模型 生成模型 生成方法学习而成 数据学习联合概率分布P(X, Y),求出条件概率分布P(Y|X)作为预测模型 例子: 朴素贝叶斯, 隐马尔科夫模型 特点 可以还原联合概率分布 收敛速度快 存在隐变量仍可学习 判别模型 判别方法学习而成 直接学习决策函数或者条件概率函数作为预测的模型 例子:KNN, 感知机,决策树,LR, 最大熵模型, SVM, bagging和boosting,CRF 特点 准确率高 对数据抽象,定义特征并使用,可以简化学习问题 详细问题 分类问题 TP-正类预测为正类数 FN-正类预测为负类数 FP-负类预测为正类数 TN-正类预测为负类数 精确率:预测为正类数中预测准确的比例 召回率:预测准确数中预测为正类的比例 F1值 精确率和召回率的调和均值 标注问题 常用 隐马尔科夫链 CRF 回归问题 常用:平方损失函数 求解:最小二乘法