数据分析主流程:
1、 明确业务需求
2、 明确数据需求
3、 数据准备(数据筛选,数据清洗)
4、 相关性分析(扩展如何筛选那几个月特征是相关关键性特征)
5、 分割测试集和训练集
6、 确定模型,训练并检验
7、 模型调优,交叉验证
8、 测试,最后出结果
明确业务需求
需要明确自己本次分析过程需要产生什么样的决策。比如一般核心诉求是想多挣钱。一般而言多挣钱可以有两种途径,一种是提高订单量,另一种是提高利润率,那么我们需要为哪种途径进行数据分析呢??
明确数据需求
对于业务需求,最终还是要反应到数据上的。对于订单数据而言,我们需要知道,我们有哪些已有数据,同时哪些数据有可能会影响到订单量,进行梳理
数据准备
这里就是进行数据获取,筛选和对异常值的处理等等
相关性分析
已有数据中,不是所有数据种类都是有效的。订单相关的数据有:下单当天的天气,订单金额,下单人的年龄,下单人的性别,甚至还有订单的时长。如果我想提高订单量,那么订单使用时长对于本次分析就没有任何作用,这块内容会在后面详细展开
测试集和训练集
一般将数据按照特定规则进行2 8分,或者3 7 分,使用训练集进行训练之后,另一部分则进行检测
确定模型
这里是数据分析核心中的核心了。针对不同的应用场景,会有不同类型的分析模型进行数据分析。并根据训练出的模型进行测试集的检验。这块后面会进行详细分类说明
模型参数,调优
根据检验结果进行模型或者参数的调整。