作者:Jason Browniee
翻译:张若楠
校对:林鹤冲
本文长度为2800字,建议阅读8分钟
本文介绍了自由度的概念,以及如何判断统计学模型和机器学习模型中的自由度。
标签:数据处理
自由度是统计和工程学的重要概念,它通常用于总结在人们在计算样本统计或统计假设检验统计量时所使用的数据量。在机器学习中,自由度可以指模型中的参数数量,例如线性回归模型中的系数数量或深度学习神经网络中的权重数量。
其中值得关注的地方在于,如果机器学习模型中存在过多的自由度(即模型参数),那么这个模型将会过拟合训练集,这是统计学上的普遍认识。可以通过使用正则化技术来克服这种问题,比如正则化线性回归,以及深度学习神经网络模型中常用的各种正则化手段。
在本文中,你将进一步了解统计学和机器学习中的自由度。阅读这篇文章后,你会认识到:
自由度通常表示一个模型系统的起控制作用的因子数。
在统计学中,自由度是用于计算某个统计量的数据大小。
在机器学习中,自由度是模型参数的数量。
让我们开始吧。
概览
本文分为以下三部分:
一、什么是自由度
二、统计学中的自由度
三、机器学习中的自由度
线性回归模型自由度
线性回归误差自由度
线性回归总自由度
负自由度
自由度与过拟合
自由度
自由度表示的是一个系统、模型或一个计算中的控制因子数。每个可以变换的独立参数都是d维空间中的一个维度,这个d维空间定义了可能影响系统的值的范围。某一个观测值或样本点就是该空间中的一个单独点。
在数学上,自由度通常用希腊字母ν表示,看起来像小写的“ v”。也可以缩写为“ d.o.f”、“ dof”、“ d.f.”,或直接写作“ df”。自由度是统计学和工程学中的术语,也通用于机器学习。