写在前面
上次更新已经是2年前的事情了,工作了也没时间/没动力去学东西,去更新博客,最近考上信号的博士,还是搞机器学习、图像处理相关专业,所以准备重新开始更博。
就我个人而言,博士真的是一个全新的挑战,之前的教育经历和大多数国人一样,按部就班、背诵课本、大量刷题即可,上了研究生发现需要自己去钻研一些东西,老师不会告诉你怎么做,全靠自学,而博士则更是这样,需要在非常窄的问题上,去做出一点点突破,这个不光是导师,全世界估计也没什么人能帮自己,所以还是要踏踏实实去做些东西。
这次更新是统计学习笔记,主要写的是一些自己系统自学的一些感悟,可能也会有漏洞、系统性不强,但这也算是加深印象,督促自己。
1.统计学习概述
(1)基本概念
统计学习是关于计算机基于数据构建概率统计模型并用模型对数据进行预测与分析的一门学科,又叫统计机器学习。可以看出,统计学习是一种重要的机器学习方法,是从已知数据中学习出模型,再用模型去预测未知的数据,该方法经常用于传统的图像处理问题中。同时,统计学习对数学的要求比较高,从高数、线代、概率论、随机过程等一些列课程均有涉猎。
统计学习方法分成:监督学习、非监督学习、半监督学习、强化学习等组成,监督学习是最基础、最常用的方法。
(2)三要素
统计学习方法三要素: 方法=模型+策略+算法
模型:需要学习的条件概率分布/决策函数。
策略:用于选择最佳模型的准则,如损失函数、风险函数。
算法:求解最佳模型的方法。
通俗来讲,统计学习方法,就是按照某种最佳准则、某种算法去求解最优的决策函数。
策略分损失函数(单次预测的好坏)与风险函数(平均意义下预测的好坏)。风险又分为期望风险与经验风险,期望风险是模型关于联合分布的损失函数,一般不好求;经验风险则是模型关于训练样本的平均损失,一般好求,所以统计学习常用经验风险来估计期望风险。
一般的经验风险最小化(ERM)=min(所有样本预测误差求和/N),但该方法容易过拟合。采用解构风险最小化(SRM)=ERM+正则化项/惩罚项。
结构风险最小化是最常见的统计学习目标函数,其关键是正则项的选择。
(3)生成模型与判别模型
监督学习方法分成生成方法与判别方法。
生成方法首先学习联合概率分布,再求出条件概率分布作为预测的模型。生成是指给定输入X产生输出Y的生成关系。常见方法:朴素贝叶斯、隐马尔科夫模型。
判别方法则是由数据直接学习条件概率分布作为预测的模型。判别方法关心的是给定输入X,应该预测什么样的输出Y。常见方法:感知机、决策树、支持向量机、最大熵、条件随机场等。
生成方法可以还原出联合概率分布,学习收敛速度更快,当存在隐变量时也可使用;
判别式方法则是直接学习条件概率函数,直接面对预测,所以精度更高;并且可以直接对数据进行抽象、提特征,所以简化学习过程。
(4)监督学习常见问题
a.分类问题
监督学习中,当输出变量Y取有限离散值,则预测问题便为分类问题。目前常见的,人脸识别、文本分类、目标检测、跟踪都可以归入分类问题中。常用方法:k近邻、感知机、朴素贝叶斯、决策树、SVM,贝叶斯网络、神经网络等。
b.标注问题
输入一个观测序列,输出是预测出的序列。常见的自然语言处理(NLP)、信息提取都属于该类。常用方法有:隐马尔可夫模型、条件随机场。
c.回归问题
学习输入与输出之间的映射函数 。常见的市场预测、投资风险分析、产品质量管理 都是回归问题,常用的解决方法是最小二乘法。
回归与分类的区别是,分类的预测值是离散的,而回归的预测值是连续的。
(5)一些术语(更新中)
a.独立同分布:假设样本空间中的所有样本都服从一个位置的分布,获得的每个样本都是独立的从这个分布上采样获得,即为独立同分布:i.i.d
下面是我学习的参考文献,其中《统计学习方法》偏理论,更能揭示统计学习的根本;《机器学习》是有名的”西瓜书”,内容比较浅、比较全面,也更贴合目前流行的的研究问题,所以两者各有各的特色。
参考文献
[1]: 统计学习方法,李航,清华大学出版社
[2]: 机器学习,周志华,清华大学出版社