本没有专门要写这篇文章,但是在项目过程中总要沉淀一些东西,不写下来肯定过两年就忘了。写的粗浅,也只能作为引子启发一下初入算法开发的新朋友们,老鸟儿就将就着看看吧,欢迎斧正。
- 一、数据清洗
- 归一化
- 补全
- 去杂
- 。。。
- 二、相关性分析
- 方差分析
- 卡方分析
- T检验分析
- 。。。
- 三、模型算法
- 线性回归
- 逻辑回归
- 随机森林
- 。。。
以上内容就是这篇系列文章的目录。我会不断完善更新的。
做预测类算法模型,步骤基本上如下:
- 首先要对数据做清洗
- 然后对数据做分析
- 最后带入算法模型去训练
这中间在对数据分析后可能需要再次清洗,然后再分析;或者带入训练后根据结果再清洗,再训练。总之,是个反复的过程。
我是在做一个医疗的项目,预测疾病发生概率的模型,下面针对每个环节展开记述。