查找数据(没给数据的时候)
1.优先在中国知网,谷歌学术平台
2.国家统计局
还有其他的一些平台上去搜索,按需去求
数据预处理(自己搜所完的资料和题目所给的数据)(没有说哪种方法更好只有哪种方法更合适哪一道题目)
—.缺失值
1.最简单的处理方式:均值、众数插补
——适用赛题:人口数量年龄、经济产业情况等数据,对个体精度不大的数据。(也就是基数很大的数据)
——具体方法:第一种.对于定量数据,例如关于一群人的身高、年龄等数据,用整体的均值来补缺失值。(假如关于全国人民的身高数据中,缺少了一个人的身高,就应该分男女地去算平均值,再把对应的数据填上去)
第二种.对于定性数据,例如关于一群人的性别、文化程度;某些事件的满意度,用出现次数最多的值补缺失。(其实也可以把这些数据数字化,把他们变为特定的数值,然后再算平均值,之后再取离的特征)(基数大的话个体数据的处理方法比较简单和多样)
2.Newton(牛顿)插值法(对个体精度有要求的情况)
·根据固定公式,去画一个近似函数,再根据函数上的点的值去补上缺失点的值。(普遍适应性强)
·缺点:区间边缘处可能会产生不稳定的震荡(就是函数的值不规则的乱变,与中间段函数的变化规律不同),即龙格现象(是数值分析中的一个现象,它指出在使用等距节点进行插值时,高阶多项式可能在边界区域产生振荡现象。 具体来说,当使用一个高阶多项式来插值一个在给定区间内的函数时,在靠近边界的地方,插值结果可能会出现明显的振荡现象,即多项式在边界处远离实际函数的值。这种振荡往往会随着多项式次数的增加而增强。
龙格现象的出现是由于等距节点的分布方式在边界处导致节点密集的问题。高阶多项式在边界处需要更密集的节点才能逼近函数的曲率变化,而等距节点的分布无法满足这种需求,导致插值结果的误差较大。 为了解决龙格现象,可以采用非等距节点的插值方法,如切比雪夫节点或高斯节点,这样可以更好地逼近复杂函数的性质,减小边界处的振荡现象。另外,也可以使用其他插值方法或曲线拟合技术来代替多项式插值,以获得更好的结果。
了解龙格现象的存在,以及适当选择插值方法和节点分布策略,对于进行数值插值和逼近(极限)时的正确应用是重要的)。因此不适合对导数(极限)有要求的题目。
·适用赛题:热力学温度(不关注温度是否突然变高或变低)、地形测量(不关心地势是否突然变高或变低)、定位(不关心是否瞬移)等只追求函数值精准而不关心变化的数据(中间的值是对的就行,两边只要不是缺失值即可,变化的话因为大部分都是要知道的变化,这不准确,那函数就错了)
3.样条插值法(对导数有要求的情况 )
·用分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率
·适用赛题:零件加工(飞机的机翼不能有任何的棱角,机床的零件必须是非常光滑的,否则会造成非常大的磨损),水库的水流量(不能突然闸门放开,水一次性的放完,或一点水都没有),图像“基线漂移”(基线漂移(Baseline drift)指的是信号在时间上逐渐偏移或移动的现象。在信号处理中,基线表示信号的基本水平或参考水平,而漂移则表示随时间的变动。基线漂移可能会影响信号的分析和解释,尤其是在需要准确测量信号的振幅或变化时。 数据校正和修正:可以通过基于已知参考或稳定的基准数据进行数据校正或修正。这可以通过建立校正模型(样条插值法)或使用校正系数来实现),机器人轨迹等精度要求高(机器人速度变化是连续性的不是突变型的)、没有突变的数据。