统计学习个人笔记与感悟(一)

最新推荐文章于 2025-03-22 21:32:28 发布

Lebronze

最新推荐文章于 2025-03-22 21:32:28 发布

阅读量457

点赞数 1

分类专栏：机器学习相关文章标签：机器学习人工智能算法统计学习图像处理

本文链接：https://blog.csdn.net/Lebronze/article/details/108311987

版权

机器学习相关专栏收录该内容

6 篇文章

订阅专栏

写在前面

上次更新已经是2年前的事情了，工作了也没时间/没动力去学东西，去更新博客，最近考上信号的博士，还是搞机器学习、图像处理相关专业，所以准备重新开始更博。

就我个人而言，博士真的是一个全新的挑战，之前的教育经历和大多数国人一样，按部就班、背诵课本、大量刷题即可，上了研究生发现需要自己去钻研一些东西，老师不会告诉你怎么做，全靠自学，而博士则更是这样，需要在非常窄的问题上，去做出一点点突破，这个不光是导师，全世界估计也没什么人能帮自己，所以还是要踏踏实实去做些东西。

这次更新是统计学习笔记，主要写的是一些自己系统自学的一些感悟，可能也会有漏洞、系统性不强，但这也算是加深印象，督促自己。

1.统计学习概述

（1）基本概念

统计学习是关于计算机基于数据构建概率统计模型并用模型对数据进行预测与分析的一门学科，又叫统计机器学习。可以看出，统计学习是一种重要的机器学习方法，是从已知数据中学习出模型，再用模型去预测未知的数据，该方法经常用于传统的图像处理问题中。同时，统计学习对数学的要求比较高，从高数、线代、概率论、随机过程等一些列课程均有涉猎。

统计学习方法分成：监督学习、非监督学习、半监督学习、强化学习等组成，监督学习是最基础、最常用的方法。

（2）三要素

统计学习方法三要素： 方法=模型+策略+算法
模型：需要学习的条件概率分布/决策函数。
策略：用于选择最佳模型的准则，如损失函数、风险函数。
算法：求解最佳模型的方法。
通俗来讲，统计学习方法，就是按照某种最佳准则、某种算法去求解最优的决策函数。

策略分损失函数（单次预测的好坏）与风险函数（平均意义下预测的好坏）。风险又分为期望风险与经验风险，期望风险是模型关于联合分布的损失函数，一般不好求；经验风险则是模型关于训练样本的平均损失，一般好求，所以统计学习常用经验风险来估计期望风险。
一般的经验风险最小化（ERM）=min（所有样本预测误差求和/N），但该方法容易过拟合。采用解构风险最小化（SRM）=ERM+正则化项/惩罚项。
结构风险最小化是最常见的统计学习目标函数，其关键是正则项的选择。

（3）生成模型与判别模型

监督学习方法分成生成方法与判别方法。
生成方法首先学习联合概率分布，再求出条件概率分布作为预测的模型。生成是指给定输入X产生输出Y的生成关系。常见方法：朴素贝叶斯、隐马尔科夫模型。
判别方法则是由数据直接学习条件概率分布作为预测的模型。判别方法关心的是给定输入X，应该预测什么样的输出Y。常见方法：感知机、决策树、支持向量机、最大熵、条件随机场等。

生成方法可以还原出联合概率分布，学习收敛速度更快，当存在隐变量时也可使用；
判别式方法则是直接学习条件概率函数，直接面对预测，所以精度更高；并且可以直接对数据进行抽象、提特征，所以简化学习过程。