(本文源自作者在一次全国软件技术大会上的主题演讲。)
近些年随着大数据的火热,数据挖掘也更加引起人们的重视。因为,大家越来越认识到,大数据本身并不能直接给人们带来什么收益,只有运用像数据挖掘这样的技术对大数据进行深入分析,才能得出对人们更有用的东西。如果大数据不能得到深入分析,那大数据只能是占用宝贵的存储资源和浪费昂贵管理成本的一堆大垃圾!
虽然数据挖掘的很多技术源自理论界和学术界的一些研究成果,但更有价值的是这些技术能在商业上得到成功的应用。而数据挖掘在理论和实践之间有着相当大的距离和挑战!商业数据挖掘应用在北美地区开展得比较早,应用行业和范围也比较广泛,北美的业界也积累了不少的宝贵经验。下面,就根据我们在北美开展的商业数据挖掘应用的经历,给大家介绍一点相关经验。
数据挖掘的主要技术和工具
数据挖掘技术的主要原理包括人工智能、模式识别、机器学习、进化计算、信号处理、统计学、以及更广泛的一些数学建模方法等,同时也借鉴了许多其他学科的思想和优化技术。数据挖掘常用的技术,主要包括:
·离散数据分类:是对离散的目标变量进行分类;
·回归预测:是对连续型的目标变量进行预测分析;
·聚类分析:是所谓的“物以类聚,人以群分”的思想,探索数据自然的分组,往往用来探知未知数据的分布规律;
·关联规则:探索事物间并发现象的规律,简单举例,就是想要找到是否A事物的出现会导致B事物的同时出现这样的规律;
·相关分析:探索数据的多维变量之间的相关关系,包括变量实相关和变量虚相关,以及线性(非线性)完全相关、不完全相关、不相关、正相关、负相关等很多种关系;
·特性抽取:是寻找事物主要特征的一种方法,形象地说,就是哲学中的抓事物的主要矛盾。
当然,数据挖掘的技术还远不止这些,例如,还有对数据进行相似性的分析、对数据进行异常点的分析、对数据进行趋势性的分析、对数据进行序列分析、对数据进行时间分析、对数据进行空间分析等等。
总结以上,我们说数据挖掘最终目的的就是寻找事物间的关系、抓取事物的主要特征、探索事物隐藏的规律。
现在数据挖掘常用工具包括两个大类,分别是商用数据挖掘套件和开源数据挖掘软件,以下是一些在北美地区常用的数据挖掘工具。
商用数据挖掘套件:
•
•
•
•
开源数据挖掘软件(Open Source):
•
•
•
我们体会,数据挖掘最关键的其实不只是算法,还有很多环节,如业务理解、数据的建模与准备等,也是数据挖掘商业应用成败的关