数据挖掘是指用相关算法从大量的数据中探索隐藏在其中的信息的过程。看似与大数据分析的含义有点类似,但相较而言,数据挖掘涉猎的知识面更广,要求更高。因为数据挖掘会涉及到很多算法,有源于机器学习的神经网络和决策树,也有基于统计学理论的支持向量机、分类回归树和关联分析的诸多算法等等。
数据挖掘这种可以从大量的、模糊的数据中,提取隐含其中的有用信息和知识的技术不断被人们应用到企业管理中来。数据挖掘已经不停留在原本的抽样,而是根据整体的数据来就行挖掘和分析。新型的模式采集数据海量、迅速且多样化,从而为企业带来了更多精准有效的数据,能够让企业在决策的制定中更加准确。
企业如何实施数据挖掘:
1、确立研究动机
考虑实际可行性和带来的收益预测,充分理解业务需求,考虑数据驱动利润核算,数据驱动用户运营等,这需要大数据科学家和行业专业,以及客户的业务专家一起来明确问题。这是整个大数据挖掘中最关键的一步。
2、分析数据
看看到底哪些数据能够支撑我们的业务,用哪些数据去解决问题。在分析数据这个阶段,对数据进行基本处理,首先对原始输入进行预处理,如调整大小,去除噪音等,其次对预处理输出的数据提取特征,进行特征抽取及特征选择的操作,之后再进行特征降维等,获得通过特征向量表示的样本,使用各种模型进行学习和训练,最终完成具体任务,如分类,识别等,在此过程中,我们可能发现数据不足,或者数据质量太差,这个时候就可能要寻求第三方数据的帮助,或者规划如何去采集更多的数据。
3、数据挖掘
首先对数据进行处理,从数据中提取特征。这是数据挖掘非常关键的一步,特征的好坏直接影响最终模型的效果。在数据挖掘过程中,算法其实并不是最主要的因素,影响效果最直接的因素就是特征。良好的特征需要有非常好的区分度,只有这些特征,才能很好的去解决问题。在提取特征时,因为我们是大数据挖掘,所以要使用大数据技术去从原始数据中提取特征。
4、建立模型
在实际的建模过程中,由于数据量过于庞大,算法训练过程往往十分缓慢,如何加速算法计算速度,是一个非常突出的问题。
5、模型评估
模型评估最重要的是建立模型的评价指标。这个评价指标必须是要结合业务来建立的。当模型效果不佳时,我们要回到特征提取,建模过程来不断的迭代,甚至可能要重新分析业务和数据。
目前商业决策面临的最大挑战不是缺少数据,而是数据太多。对于大部分企业来讲,数据挖掘的挑战在于:一是数据混乱,根本找不到解决得办法;二是海量数据无边无际,企业现有得信息系统无法高效地处理。