IBM 数据挖掘分析平台IBM SPSS Modeler在市场上一直占据领导者地位,其专业性及易用性一直受到广大用户的喜爱,该平台也不负众望,我们的研发团队一直致力于不断的技术更新及功能的提升,最新版本IBM SPSS Modeler 18.1于2017-6-20正式发布,该版本又给我们带来了哪些新的功能及技术要点,我们将在本文做介绍,需要更进一步了解的,可以随时与我们联系。
首先,该版本从3个大的方面做了增强,分别是:
接下来一一为大家做介绍:
一、进一步增强和扩展与开源技术的集成
从IBM SPSS Modeler 16.0版本开始,就已经开始与开源平台R与Python的集成,在最新版本中,集成力度增强。
1.新增Python编写的功能节点
在该版本,最受关注的一个功能就是在IBM SPSS Modeler下方的面板中,新增了Python面板,并新增加了4个Python编写的节点功能,包括【SMOTE】、【XGBoost Liner】、【XGBoost树】以及【一类SVM】,如下图:
接下来我们简单介绍下这几个节点的功能:
-
SMOTE
在数据分析过程中,经常会遇到数据集不平衡的问题,不平衡数据集指的是数据集内各类样本点数目相差较大的数据集,比如做设备故障预测的时候,出现故障的设备可能只有1%,而99%的设备是正常的,这时候,数据的不平衡,如果不加以处理,会造成模型无法生成或者模型效果很差,SMOTE就是解决数据不平衡问题的高级技术,SMOTE全称是 SyntheticMinority Over-sampling Technique, 在IBM SPSS Modeler中,有【平衡】节点可以处理数据不平衡的问题,但只是简单的对数据集进行复制或删减,有时候效果并不好,而SMOTE对不平衡数据集进行预处理,通过利用已有样本以及其近邻,合成新样本数据对少数类进行“过采样”,效果要更好一些,并且该节点还提供SMOTE算法的提升算法,包括Borderline1-SMOTE和Borderli