统计学习方法-笔记

https://blog.csdn.net/jiaoyangwm/article/details/81139362

分类问题(label是有限。离散的)
逻辑回归,解决二分类问题。在空间中找到一个决策边界来完成分类的决策。

逻辑回归是将线性回归的连续值结果,通过sigmoid函数映射到(0,1)之间,完成分类问题,还能获取到每个类别的概率。
损失函数:对数损失函数。对数形式,损失函数的梯度图是碗形的,正负例分类界限很清晰,样本过多,连乘变累加,不会溢出。

逻辑回归实现多分类(softmax 回归):(1)一对一分类,每两个类之间构造一个分类(共需n(n-1)/2个分类器, 结果投票; (2)一对多分类器(共需n个,判断当前类别是正,其他都为负,共n个分类器, 结果取最大的。)

问题类别互斥的话,多分类器或者多个二分类器, softmax;
问题类别不互斥, 多个二分类器。
softmax是LR在多分类的推广。 属于广义线性模型。元素指数与所有元素指数和的比值。 所有类别概率和为1. LR就是K=2的softmax。 比较像one vs all。

SVM和LR都用来分类,一般都只能处理二分类。
LR是参数模型,SVM是非参数模型;
目标函数:LR是logistic loss(对数损失), SVM是hinge loss, 都是增大对分类影响较大的数据点权重,

SVM只考虑支持向量,和分类相关的少数点去学习分类器。 LR通过非线性映射,大大减小了离分类平面较远的数据点权重,相对提升了与分类相关点的权重。

回归问题(label是连续值)线性回归

聚类问题(没有label)

强化问题(没有label,结果给予反馈,不停的调整之前的行为,得到最好的结果)

统计学习方法阅读:
统计学习方法 = 模型 + 策略 + 算法。

  1. 模型(表示假设空间):
    非概率模型:决策函数表示的模型,
    概率模型:条件概率表示的模型。
  2. 策略: 从假设空间中选取最优模型。
    损失函数(代价函数):预测错误的程度。 0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。
    损失函数值越小,模型就越好。

损失函数的期望,平均意义上的损失,被称为风险函数,或期望损失。(测试集)
经验风险(经验损失):模型关于训练样本集的平均损失。(训练集)

学习目标就是:期望、风险最小的模型,

经验风险最小化:(尽量去拟合训练集),样本容量很小时,容易过拟合。
极大似然估计,????

结构风险最小化:正则化。 在经验风险上加上表示模型复杂度的正则化项(regularizer)、罚项(penalty term).
结构风险小,需要经验风险和模型复杂度同时小。
贝叶斯估计中,最大后验概率估计(MAP)

监督问题:变成了 经验风险、结构风险函数的最优化问题。

  1. 算法:
    求解上述函数最优解的算法, 一般要用数值计算方法求解,找到全局最优解,求解过程尽量高效。

模型评估与选择:
泛化能力: 测试集、对未知数据的预测能力。
目标在于:避免过拟合,并提高模型的预测能力。模型不能太复杂。对训练数据拟合的好,并且泛化能力强。最终目的,测试误差达到最小。
选择模型的方法:
正则化(选择经验风险、模型复杂度都较小的模型)奥卡姆剃刀原理(Occam’s razor),在所有可能选择的模型中,能够很好的解释已知数据、并且十分简单的,才是最好的模型,也是应该选择的模型)
贝叶斯估计:正则化项对应模型的先验概率,复杂模型先验概率较小,简单模型先验概率较大。

交叉验证
随机将数据集划分为三部分,训练集、验证集、测试集,验证集用于模型选择,测试集用于最终对学习方法的评估。选择对验证集预测误差最小的模型。
实际中应用数据不足,采用交叉验证,重复使用数据,

监督学习:
生成方法,模型给定了输入X,产生输出Y的生成关系,联合概率P(X,Y)已经给定,求:P(Y|X)比如:朴素贝叶斯, 隐马尔科夫模型(HMM)。
优点:学习收敛速度更快,可以还原联合概率分布P(X,Y)

判别方法。根据数据直接学习决策函数f(X), 或者条件概率P(Y|X), 作为预测模型,也叫判别模型。比如:KNN、决策树、LR、SVM,感知机。CRF。
优点:直接通过数据进行学习,直接预测,学习准确率会更高;可以对数据进行各种程度的抽象,定义特征并使用特征,简化学习问题。

分类问题:
评价指标:分类准确率(正确分类的样本数/总样本数)accuracy,
二分类问题:评价指标有:精确率(P,precision, 预测为正类中,正确的个数) = TP/(TP+FP) , 召回率(R, recall, 正类预测正确的个数) = TP/(TP + FN).
F1值,精确率和召回率的调和平均。 F1 = 2TP/(2TP + FP + FN), 精确率、召回率都高时,F1值会很高。
关注的类:正类, 其他类:负类。
TP(正类->正类), FN(正类->负类), FP(负类->正类), TN(负类->负类)

标记问题:
输入:观测序列,输出:标记序列/状态序列。
标记个数有限,标记组合随序列长度呈指数级增长。

学习目标:条件概率最大。
常用的方法有:HMM、CRF

回归问题:
预测输入变量与输出变量之间的关系(映射函数),输入变量值发生变化,输出变量值随之发生变化。函数拟合。
输入变量个数,分为:一元回归、多元回归,
输入输出之间关系类型:线性回归,非线性回归。
常用的损失函数:平方损失函数。
模型有:最小二乘法。

朴素贝叶斯(naive Bayes),基于贝叶斯定理,特征条件独立假设, 分类方法。
先学习输入输出的联合概率分布,基于此模型,对给定x,利用贝叶斯定理,求出后验概率最大的输出y。实现简单,学习预测效率高。常用的方法。
类确定的情况下,用于分类的特征都是独立的,实现简单,但是会牺牲一部分分类准确率。

决策树(Decision Tree)
基本的分类,回归方法,主要用于分类。 决策树模型呈树形结构,在分类问题中,基于特征对实例进行分类的过程。if–then规则集合。
优点:模型具有可读性,分类速度快。
决策树学习的3个步骤: 特征选择、决策树的生成、决策树的修剪。 ID3算法 -> C4.5算法 -> CART算法。

决策树定义:结点和有向边 组成, 结点有2种类型:内部结点(表示一个特征或属性), 叶结点(表示一个类)。

决策树与if–then规则: 每一个实例被一条路径或一条规则覆盖,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值