数模暑假速成

入门

数据查找

1.国家统计局:

国家数据 (stats.gov.cn)

2.国外数据

GitHub - awesomedata/awesome-public-datasets:以主题为中心的 HQ 开放数据集列表。

3.主要在知网、谷歌学术和国家统计局里找

4.EPSDATA

EPSDATA官网 (epsnet.com.cn)

数据预处理

1.缺失值

1)比赛提供的数据,发现有些单元格是空的(null)

2)缺失太多:若一项缺失数据缺失了40%,则直接删除即可。

3)最简单的处理:(适合对个体精度要求不高的数据)

(1)定量数据,用整体均值来补缺。

(2)定性数据,用次数最多的值补缺失

4)Newton插值法(适用赛题:热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据)

(1)根据固定公式,构造近似函数,补上缺失值,普遍适用性强。

(2)缺点:区间边缘处的不稳定震荡(不适合对导数有要求的题目)

5)样条插值法(适用对精度要求高,没有突变的数据)

(1)用分段光滑的曲线插值,不仅连续还要有连续的曲率。

2.异常值

样本中明显和其他数据差异很大的数据

1)正态分布原则(使用场景:总体适合正态分布)

数值分布在中的概率为99.73%,其中为平均值,为标准差,

求解步骤:1.计算均值和标准差

                  2.判断每个数据值是否在内,不在则为异常值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值