信息时代,数据俨然已成为一种重要的生产要素,如同资本、劳动力和原材料等其他要素一样,而且作为一种普遍需求,它也不再局限于某些特殊行业的应用。在提高大数据分析效果方面我们都需要注意的问题都欧哪些。
提高大数据分析效果的常用方法分享:
1、业务分析:对于业务的理解能力越强,选择的数据和变量就越有价值,这是机器学习的要点,当然极个别的场景除外,比如下棋。
大多数企业机器学习的应用场景涉及的要素基本是无法穷尽的,因此,越复杂的环境,就越需要强大的业务理解能力,现在只有人有这个能力。
2、样本数据准备:大多时候,我们需要从数据仓库(当然数据库,文件都可以)获取所需的样本数据,数据仓库的效率起到至关重要的作用,比如数据预处理,这个阶段往往耗费了大量的时间。
3、变量选择:业务分析虽然能大致圈定一些变量,但有时还是需要依赖一些更为客观的评价方法,比如IV,WOE等等,甚至需要单独建个模型来取舍变量,这个过程往往是独立的。
4、样本数据输入:需要根据变量选择的结果决定样本的终数据,作为模型训练的数据输入。
5、模型训练:需要选择合适的数据挖掘引擎和算法(深度学习或者机器学习等等),无论是基于图形界面或是脚本;需要将样本数据输入到挖掘引擎中,无