作者记录方便查询
置信区间
学习过程中,在计算置信度与置信区间的时候,所估计的变量常常是总体的某个参数(均值、方差等等)。
这时的已知条件一般为样本(通常还有总体分布),未知的,也是需要估计的是总体参数,因为仅仅估计某一个点的准确度不够,所以使用一个区间来估计这个参数,这个区间也就是置信区间。
置信度(0-1)即代表对应的置信区间的精确程度(不是概率),置信度越大,置信区间也越大,极限情况置信度等于1,那么对应的置信区间便为参数所能取到的整个范围。
预测区间
相比于置信区间,获取预测区间时,已知信息为总体的分布(我认为这个属于模型的测试部分,对应置信区间,就是模型的训练部分)和单个样本的信息(例如x),未知的就是需要预测的事物,预测区间是对于单个样本的预测而言的(例如标签y),置信区间的公式在总体分布确定时很常见,但网上关于预测区间的公式较少,所以找到之后会进行更新。。。
现在找到的就是:预测区间=预测值 +/- 参数*标准差 ,这个参数受置信度和总体分布的影响,置信度越大,参数越大,极限情况置信度等于1,那么预测范围就要覆盖整个可取值范围。
2022.10.10更新
稍微看了看论文,现在很多使用区间预测的方法不是在预测之后进行区间计算,而是建立一个区间预测模型。之后发现一篇文章(2008年的文章,不知道这种方法是否过时,
https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2008&filename=JLXB200801023&uniplatform=NZKPT&v=A79YAcwZ7D9qBqoDfoD-UXHo1bUhzmFrucfa-0tvxsFWkUEsO7J9125Dcwg-6G-s
陈果,周伽.小样本数据的支持向量机回归模型参数及预测区间研究[J].计量学报,2008(01):92-96.
),文中提出两种预测之后区间计算方法。
1.基于正态分布的预测区间求解
这里认为预测值和真实值,存在某种关系:
这样可以得到:
2.基于 t 分布的预测区间求解
总结
个人认为,置信区间常用于训练期间,利用可知的样本,对总体参数进行估计;预测区间用于测试期间,利用已经获取的模型,对单个样本进行预测。预测区间常常大于置信区间。
根据2008年的这篇文章,可以看出根据正态分布虽然简单,但是需要求误差的方差项,这一项是比较困难的,因此在实践中似乎t分布的方法更实用。