1. 查文献
- 知网:先看硕博士论文
- 谷歌学术镜像:http://scholar.scqylaw.com/
- Open Access Library:https://www.oalib.com/
2. 找数据
- 优先:知网,谷歌学术
- 国家统计局:https://data.stats.gov.cn/
- Github:包含经济、地理、能源、教育等数据。https://github.com/awesomedata/awesome-public-datasets
- EPSDATA 平台:EPSDATA平台有丰富的数据资源和大量分析处理过的数据结果,是收费的,不过可以申请7天的试用。https://www.epsnet.com.cn/index.html#/Index
- 其它:国家信息中心,kaggle,和鲸社区。
2. 数据预处理
2.1 缺失值
比赛提供的数据发现有些单元格是 null 或者是空的。
-
缺失太多:例如调查人口信息,发现 “年龄” 这一项缺失了 40%,就直接把该项指标删除。
-
均值、众数插补 (最简单的处理)
- 定量数据:例如关于一群人的身高、年龄等数据,用整体的均值来补缺失。
- 定性数据:例如关于一群人的性别、文化程度;某些事件调查的满意度,用出现次数最多的值补缺失。
- 适用赛题:人口的数量年龄、经济产业情况等统计数据,对个体精度要求不大的数据。
-
Newton 插值法
- 根据固定公式,构造近似函数,补上缺失值,普遍适用性强。
- 缺点:区间边缘处的不稳定振荡,即龙格现象。不适合对导数有要求的题目。
- 适用赛题:热力学温度、地形测量、定位等只追求函数值精确而不关心变化的数据。
-
样条插值法
- 用分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率。
- 适用赛题:零件加工,水库水流量,图像“基线漂移”,机器人轨迹等精度要求高,没有突变的数据。
2.2 异常值
样本中明显和其他数值差异很大的数据,例如一群人的身高数据中有个3米2的。
找异常值:
-
正态分布 3 σ \sigma σ 原则
- 数值分布在 ( μ − 3 σ \mu-3\sigma μ−3σ, μ + 3 σ \mu+3\sigma μ+3σ) 中的概率为 99.76%,其中 μ \mu μ 为平均值, σ \sigma σ 为标准差。
- 求解步骤:1. 计算均值和标准差;2. 判断每个数据值是都在 ( μ − 3 σ \mu-3\sigma μ−3σ, μ + 3 σ \mu+3\sigma μ+3σ) 内,不在则为异常值。
- 适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等。
- 不适用题目:总体符合其它分别,例如公交站人数排队论符合泊松分布。
-
画箱型图
- 箱型图中,把数据从小到大排序。下四分位数 Q 1 Q_1 Q1 是排第 25% 的数值,上四分位数 Q 3 Q_3 Q3 是排第 75% 的数值。
- 四分位距 I Q R = Q 3 − Q 1 IQR = Q_3 - Q_1 IQR=Q3−Q1, 也就是排名第75%的减去第 25%的数值。
- 一般设 [ Q 1 − 1.5 × I Q R , Q 3 + 1.5 × I Q R ] [Q_1 - 1.5 \times IQR, Q_3 + 1.5 \times IQR] [Q1−1.5×IQR,Q3+1.5×IQR] 内为正常值。
- 适用题目:普遍使用。