这篇博客是本人决定投身算法的开篇,将会是以一个系列存在,记录了本人在学习统计学过程中遇到的一些指标、算法,以本人浅薄的一些见解来尽量用通俗易懂的语言描述各种指标、算法的现实意义及适合的应用场景。由于学习是一个持续性的过程,所以文章发布后随着对知识的深入理解,可能会更正之前文章的一些说法,或者增加一些新的见解,如有不当之处欢迎骚扰!
响应文章的标题,我们为什么要对数据进行插值呢?那么就要从数据本身说起。
我们知道,应用分析、研究不管算法多么牛B,没有了数据,也只能是纸上谈兵。那么一旦我们有了数据,明确了算法,是不是意味着大功告成了呢?答案是否定的。原因就在于数据量的大小、数据的数学分布等等,我们称之为数据质量的一系列指标都制约着算法的执行效果。为了解决数据量不足的限制,插值算法就应运而生。
我们常常会遇到这种情况,我们已经有了全市范围内100个雨量监测站点的数据,此数据表示该监测站点的降雨量,但实际需求是,我们想知道全市范围的降雨量是多少,那么有没有办法通过这100个数据知道全市的降雨情况呢? 插值算法可以帮助你实现此需求。
简单来说,插值的应用通常反应在两种情景下:
(1)数据量太小,需要增加数据量来提升算法的执行效果。比如机器学习、深度学习中的样本如果太少,可以用插值法得到更多的样本值。
(2)需要对某个区域的值进行预测。通过插值算法将插值点的值计算出来。
但总的来说,所有插值算法都有一个大前提就是:离插值点近的数据点对插值点影响更大,远的影响越小。
插值可以根据其定义域来分类:在定义域内进行插值我们称之为“内插”;在定义域外插值我们称之为“外插”