按系统功能分,不同的数据平台对应着不同的常用软件。在大数据兴盛的今天,欲进军数据界的你,应该对此有更进一步的了解。以下,大圣众包威客平台(www.dashengzb.cn)将为你推介。
1.数据挖掘模块
作为一个跨学科的计算机科学分支,数据挖掘是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程,属于非传统的数据处理。相对于传统ETL数据处理,数据挖掘更侧重于知识发现,其计算和规则也更加复杂。
【现阶段常用的数据挖掘软件】AnalysisService、KNIME、KXENAnalyticFramework、MicrosoftSQLServer、OracleDataMining、Python、R语言、RapidMiner、SAS、SPSS、Weka等。
2.ETL模块
目前,对于传统ETL,大部分ETL软件都可以胜任;但是对于大数据下的ETL,ETL工具对其支持非常有限。
Informatica为大数据下的ETL开发推出InformaticaBigData版本,它将之前的Mapping翻译为HQL脚本,从而在Hive引擎上执行。IBM的DataStage则通过相应BalancedOptimizer实现Mapping到Netezza、Oracle和DB2等专用数据库的脚本翻译,以利用不同的更为强大的数据处理引擎。TalendETL则把Mapping翻译为SparkSQL,从而利用Spark引擎对数据进行处理。
【现阶段常用的ETL软件】IBMDataStageandQualityStage、InformaticaPowerCenter、Mi