统计学习方法（李航）（第一章概念）

最新推荐文章于 2025-04-03 15:56:11 发布

sgcwddhr

最新推荐文章于 2025-04-03 15:56:11 发布

阅读量186

点赞数

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/sgcwudi/article/details/109329560

版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

统计学习方法（第一章）

1定义

基于数据，利用计算机构建概率统计模型，用模型对未知数据进行预测。
统计学习方法：监督学习方法，非监督学习方法，半监督学习方法，强化方法。（是否需要标注数据）
监督学习方法：分类（输出变量是有限个离散变量），回归（输入，输出变量都是连续变量），标注（输入，输出变量都是序列变量）

2三要素

模型：就是可能的函数，所有的函数组成假设空间。假设数据是独立同分布的，是由函数生成的。现在已知数据，求生成这些数据的最大可能函数。模型由概率模型P（Y|X）或者决策函数Y=f（X）表示。
分为生成模型和判别模型。
生成模型：p（Y|X） = p（X，Y）/P（X）。是根据联合概率生成条件概率。如朴素贝叶斯估计，隐马尔可夫模型。
优点：模型收敛快，可以知道联合概率分布p（X，Y），可以含有隐函数。
判别模型：直接学习条件概率p（Y|X）或决策函数。
优点：准确率高。
策略：就是选择损失函数，定义经验损失最小化。策略就是定义模型的经验损失最小化的损失函数。损失函数L（Y，f（X））一般包括0-1损失函数，平方损失函数（一般回归用），绝对值损失函数，对数损失函数。
算法：就是如何使经验损失最小化，从而选择最优的模型。

经验损失最小化容易导致模型过拟合（在训练数据上准确率越来越高，在测试数据上越来越低），需要在经验损失最小化函数上加一个模型复杂度的罚项，即正则化项。一般包括第一范数，第二范数等。
除了正则化外，还通过交叉验证的方法，选择最优的模型。

模型评价
准确率，精确率，召回率，F1