机器学习算法总结1:统计学习方法概论

总结《统计学习方法》学习心得
统计学习(statistical learning)是关于计算机基于已知数据构建概率统计模型并运用模型对未知数据进行预测与分析的一门学科。
统计学习的研究对象是数据(data),统计学习关于数据的基本假设是同类数据具有一定的统计规律性,数据分为连续变量和离散变量。
统计学习三要素:模型(model),策略(strategy)和算法(algorithm)。
1.模型
模型的假设空间包含所有可能的条件概率分布或决策函数
2.策略
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
损失函数是预测值f(X)和真实值Y的非负实值函数,记作L(Y, f(X))
常用损失函数:
(1)0-1损失函数
在这里插入图片描述
(2)平方损失函数,常用模型:线性回归
在这里插入图片描述
(3)绝对损失函数
在这里插入图片描述
(4)对数损失函数,常用模型:逻辑回归
在这里插入图片描述
(5)指数损失函数,常用模型:Adaboost
在这里插入图片描述
损失函数值越小,模型就越好。
损失函数的期望,即风险函数(期望损失)是:
在这里插入图片描述
数学期望或均值(mean)定义:试验中每次可能结果的概率乘以其结果的总和,反映随机变量平均取值的大小。大数定律规定:随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。
在这里,学习的目标就是选择期望风险最小的模型,但是联合分布P(X,Y)是未知的,故使用经验风险(经验损失)逼近期望损失。
经验损失
在这里插入图片描述
当样本容量足够大时,使用经验风险最小化;当样本容量很小时,会产生“过拟合”现象,使用结构风险最小化
结构风险定义:
在这里插入图片描述
其中,正则化项J(f)为模型复杂度,是模型复杂度的单调递增函数,系数用以权衡经验风险和模型复杂度。
经验损失函数表示模型拟合数据的程度,正则化项控制模型的复杂度。
3.算法
统计学习问题归结为最优化问题,统计学习算法成为求解最优化问题的算法。例如:线性回归的最小二乘法,逻辑回归的梯度下降法。
统计学习包括监督学习、非监督学习、半监督学习及强化学习。
监督学习从训练数据(training data)集合学习模型,对测试数据(test data)进行预测。训练数据由输入(或特征向量)与输出对组成,训练集通常表示为:

监督学习问题可分为三类:回归问题、分类问题及标注问题。
输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题。
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布p(X,Y),训练数据与测试数据是依联合概率分布P(X,Y)独立同分布产生的。
联合概率分布定义:设(X,Y)是二维随机变量,x、y是任意实数,函数F(x,y)=P{X<=x,Y<=y},称为(X,Y)的分布函数(或联合分布函数)。
联合概率、边缘概率与条件概率之间的关系:
在这里插入图片描述
参考博文
监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测。如下图所示:
在这里插入图片描述
监督学习的目的在于学习一个由输入到输出的映射,该映射即为监督学习的模型,其可以是概率模型或非概率模型,由条件概率分布P(Y|X)决策函数Y=f(X)表示。在预测过程中,由模型
在这里插入图片描述

在这里插入图片描述
给出相应的输出。
训练误差是模型关于训练数据集的平均损失,测试误差是模型关于测试数据集的平均损失。
偏差即为训练误差,方差即为测试误差-训练误差。参考博文
过拟合:高方差;欠拟合:高偏差。如何解决过拟合和欠拟合?参考博文
过拟合是指学习时选择的模型所包含的参数过多,出现对已知数据预测很好,对未知数据预测很差的现象;
欠拟合是指学习时选择的模型所包含的参数过少,出现对已知数据预测很差,对未知数据预测也很差的现象。
训练误差和测试误差与模型复杂度之间的关系:
在这里插入图片描述
解决过拟合的方法:
1.正则化
正则化项是参数向量的
范数
,正则化的作用是选择经验风险与模型复杂度同时较小的模型,符合奥卡姆剃刀原理。
(1)L1正则化:是指权重参数w中各个元素的绝对值之和;
(2)L2正则化:是指权重参数w中各个元素的平方和再求平方根。
奥卡姆剃刀:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。
2.交叉验证(适用于数据很少的情况)
交叉验证基本思想:将给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。
(1)简单交叉验证:将一直数据随机划分为训练集和测试集,比如7:3分割;
(2)S折交叉验证:首先随机将已知数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据进行训练,利用余下的子集进行测试模型;将这一过程对S种可能选择重复进行;最后选出S次评测中平均测试误差最小的模型;
(3)S折交叉验证的特殊情形,即S=N。
模型的泛化能力是指模型对未知数据的预测能力。
监督学习分为生成方法和判别方法生成方法由数据学习联合概率分布P(X,Y),典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型;判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X),典型的判别模型有:k近邻、感知机、决策树、逻辑回归、最大熵模型、支持向量机、提升方法和条件随机场等。
在这里插入图片描述
监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。评价分类器性能的指标一般是分类准确率,其定义是:对于给定的测试数据集,正确分类的样本数与总样本数之比。
其他评价指标精确率(precision)、召回率(recall)及F1值
TP:将正类预测为正类数;FN:将正类预测为负类数;FP:将负类预测为正类数;TN:将负类预测为负类数。
精确率:P=TP/(TP+FP);召回率:R=TP/(TP+FN);F1值:2TP/(2TP+FP+FN)
也就是说,精确率表示的是预测为正的样本中有多少是真正的正样本,召回率表示的是样本中的正例有多少被预测正确,F1值表示的是精确率和召回率的调和均值,正确率表示的是正确分类的样本数与总样本数之比。
在信息检索领域,精确率和召回率又被称为查准率和查全率
查准率=检索出的相关信息量 / 检索出的信息总量
查全率=检索出的相关信息量 / 系统中的相关信息总量
分类问题统计学习方法:k近邻法、感知机、朴素贝叶斯、决策树、决策列表、逻辑回归、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等。
标注问题统计学习方法:隐马尔可夫模型、条件随机场。
回归问题的学习等价于函数拟合:选择一条函数曲线使其拟合已知数据且预测未知数据,分为线性回归和非线性回归。

参考书目:《统计机器学习》李航

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值