入门
数据查找
1.国家统计局:
2.国外数据
GitHub - awesomedata/awesome-public-datasets:以主题为中心的 HQ 开放数据集列表。
3.主要在知网、谷歌学术和国家统计局里找
4.EPSDATA
数据预处理
1.缺失值
1)比赛提供的数据,发现有些单元格是空的(null)
2)缺失太多:若一项缺失数据缺失了40%,则直接删除即可。
3)最简单的处理:(适合对个体精度要求不高的数据)
(1)定量数据,用整体均值来补缺。
(2)定性数据,用次数最多的值补缺失
4)Newton插值法(适用赛题:热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据)
(1)根据固定公式,构造近似函数,补上缺失值,普遍适用性强。
(2)缺点:区间边缘处的不稳定震荡(不适合对导数有要求的题目)
5)样条插值法(适用对精度要求高,没有突变的数据)
(1)用分段光滑的曲线插值,不仅连续还要有连续的曲率。
2.异常值
样本中明显和其他数据差异很大的数据
1)正态分布原则(使用场景:总体适合正态分布)
数值分布在中的概率为99.73%,其中
为平均值,
为标准差,
求解步骤:1.计算均值和标准差
2.判断每个数据值是否在内,不在则为异常值。