按照数据分析的实时性,可分为实时数据分析和离线分析两种。
实时分析,一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。实时分析工具有EMC的GREENPLUM,SAP的HANA等。
对大多数反馈时间要求不那么严苛的应用,可以采用离线分析的方式,通过数据采集工具,将日志数据导入专用的分析平台。常用工具有,FaceBook的Scribe,均可满足每秒数MB的日志数据采集和传输要求,并将这些数据上载到Hadoop中央系统上。
与数据挖掘相近的同义词有:数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。
数据挖掘是一种新的商业信息处理技术,主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的、先进的、有效的方法。