可视化系列论文【INFUSE: Interactive Feature Selection for Predictive Modeling of High Dimensional Data】by Josua Krause, Adam Perer, Enrico Bertini
【问题】预测模型的相关技术的应用越来越广泛,其中预测模型技术中的关键一步就是决定哪些特征应该在模型中出现。特征选择算法是常用的从已有的特征中移除信息量较少的特征的技术。然而,由于算法的结果常常很难为用户所理解,因此,决定使用哪种特征选择算法是不确定的。因此,文章设计了一个系统来帮助用户理解在特征选择,交叉验证以及分类的过程中特征是如何排名的。
【数据】超过300,000个病人的糖尿病诊断情况:首先构造一个15,038个病人的群体,其中50%为糖尿病患者,另外50%为非糖尿病患者;然后根据这些病人的记录,抽取了4种比较有意义的特征(diagnoses,lab tests,medications,procedures);最后实验共显示859个特征。
【视图】主视图主要包括三部分:特征视图(feature view),列表视图(List view),分类视图(classifier view)
特征视图:
使用图形(glyph)作为特征进行展示,每个图形作为一个特征,主要用来比较使用不同算法时特征的排名;
其中,每个图形被分成相等的圆弧段,每个段代表一种算法,而每一段由于做10折交叉,因此又被分成10份,每份按排名大小的不同向圆心增长。
排名布局;散点布局;
列表视图:
对所有特征的排序,提供多种排序方式,并可对数据进行过滤
分类视图:
使用AUCscore;特征选择算法与分类算法按矩阵形式排列,并使用柱状图显示交叉验证时分类的效果,同时有数字显示平均值
【交互】zoom;慢进慢出的动画效果;重置;双击图形突出显示;提示;视图间链接;过滤;