最大似然估计(Maximum Likelihood Estimation, MLE)详解
最大似然估计(MLE)通过最大化观测数据的概率来估计参数。经典例子包括正态分布的均值/方差估计($\mu^=\frac{1}{n}\sum x_i$)和二项分布参数估计($p^*=k/n$)。在大模型(如GPT、BERT)中,MLE是损失函数(如交叉熵)的基础,但需结合正则化、优化算法(如Adam)应对过拟合和高维问题,并扩展至生成模型(如GAN)。其局限性(过拟合、非凸优化)通过贝叶斯方法、数据增强等技术缓解,成为统计学习与深度学习的核心方法论






























