A. 数据预处理方法
1. 数据清洗
在数据缺失、立群、噪声很大时使用。
- 数据补充
- 数据删除
- 特殊点排除
- 噪声平滑
- 分箱法
- 回归法:平滑数据
- 聚类法:排除异常点
2. 数据集成和数据转换
将多源数据进行数据集成,并根据需要将数据转换为适于处理的形式进行学习,以发现其中隐藏的潜在模式与规律。
-
数据集成:如果两组数据自相关(某一个属性能由另一个属性导出,则属性冗余),解决方法有
- 皮尔逊积距系数
- 卡方检验
- 输指数型的协方差
-
数据转换:将数据转换为适合学习的形式
- 数据平滑
- 数据聚集
- 数据泛化:使用概念分层,将高层概念转化为底层概念。(例如身高体重比,把它分开)
- 数据规范化
- 属性构造
- 二值化
- 无量纲化(其实包含上面的一些)
-
图像
- 卷积
- 灰度
- 插值
- 中值滤波
- 图像增强
- 切割
- 霍夫变换(获取边缘)
- radon变换
- 小波
-
图论
- 邻接表
- 邻接矩阵
- 链式前向星
- 去环
- 缩点
- 生成树
3. 数据推断
- 数据分布
- 伯努利分布(0/1)
- 均匀分布
- 二项分布
- 正态分布
- 泊松分布
- 泊松分布适用于在随机时间和空间上发生事件的情况,其中,我们只关注事件发生的次数。
- 指数分布
- 阈值分布(称阶梯状)
- 数据来源
- 是自然数据还是人造数据
- 类型转换
- 整型、字符串、高精度、逻辑值、位置等
4. 可视化
- 软件
- 画图
- Excel
- MATLAB
- PYTHON
- PROCESS ON
- VISIO
- 地图
- GOOGLE MY MAP
- GOOGLE EARTH
- TransCAD
- 画图
- 图表
- 略
B. 统计学习方法
- 统计方法概论
- 统计学习三要素
- 模型
- 策略
- 算法
- 模型评估与模型选择(关键术语)
- 均方根误差RMSE
- 决定系数 R 2 R^2 R2
- P值
- F值
- 显著性测试
- 损失函数
- 准确率(0/1模型)
- 交叉验证
- 统计学习三要素
- 模型
- 感知器
- k邻近算法
- 距离度量
- kd树
- 朴素贝叶斯
- 极大似然估计
- 决策树
- ID3
- C4.5
- CART
- 逻辑回归
- 最大熵原理
- 迭代尺度法
- 拟牛顿法
- 支持向量机
- 核技巧(kernel trick)
- 序列最小优化算法
- 提升方法(adaboost)
- EM算法
- 隐马尔科夫模型(用于标注问题)
- 条件随机场
C. 优化算法及应用
非智能算法
- 灰色模型
- 预测
- 鉴别系统因素,进行关联分析。
- 食品价格趋势预测
- PLS应用分析
- 研究两组多重相关变量的相互依赖关系
- 体测数据的分析
- ES应用分析(指数平滑)
- 时间序列基本处理方法
- 食品价格随时间的预测
- Markov应用分析
- 对于离散时间随机过程。
- 食品价格趋势上的应用研究。
- AHP应用分析
- 对于较复杂、模糊任务作出决策的方法。
- 食堂服务质量评价模型。
- DWRR应用分析(动态加权综合评价方法)
- 评价空气指标“质”的差距和“量”的差距,增大结果客观性。
- 基于FCEM的TRIZ(应用模糊数学对受到多重因素制约的失误或对象作出整体的评价)
- 企业创新能力评价指标的构建
- 规划及非线性规划
- 目标规划问题
- 非线性规划问题
- 大规模规划问题
群智能算法
- 粒子群优化算法
- 遗传算法
- 基于遗传算法的TSP求解
- 基于Hopfield神经网络的TSP求解
- 基于ACO(人工蚁群算法)的TSP求解
- 基于SA(模拟退火的)粒子群算法
- 基于Kalman(科尔曼滤波器)的PID控制
- 使用比例、微分、积分控制对象
- SOA人群搜索算法 寻优计算
- Bayes数据预测
- 数据包络算法的投入产出分析
- BP神经网络数据分类
- 人工免疫PSO聚类
D. 经典算法
附录 工程软件
- 地理
- Vissim
- TransCAD
- 结构力学(有限元分析)
- ansys(热应力学也可以)
- 电学
- Multisim