可视化系列论文【INFUSE: Interactive Feature Selection for Predictive Modeling of High Dimensional Data】

可视化系列论文【INFUSE: Interactive Feature Selection for Predictive Modeling of High Dimensional Data】by Josua Krause, Adam Perer, Enrico Bertini


【问题】预测模型的相关技术的应用越来越广泛,其中预测模型技术中的关键一步就是决定哪些特征应该在模型中出现。特征选择算法是常用的从已有的特征中移除信息量较少的特征的技术。然而,由于算法的结果常常很难为用户所理解,因此,决定使用哪种特征选择算法是不确定的。因此,文章设计了一个系统来帮助用户理解在特征选择,交叉验证以及分类的过程中特征是如何排名的。

【数据】超过300,000个病人的糖尿病诊断情况:首先构造一个15,038个病人的群体,其中50%为糖尿病患者,另外50%为非糖尿病患者;然后根据这些病人的记录,抽取了4种比较有意义的特征(diagnoses,lab tests,medications,procedures);最后实验共显示859个特征。

【视图】主视图主要包括三部分:特征视图(feature view),列表视图(List view),分类视图(classifier view)

特征视图:

使用图形(glyph)作为特征进行展示,每个图形作为一个特征,主要用来比较使用不同算法时特征的排名;

其中,每个图形被分成相等的圆弧段,每个段代表一种算法,而每一段由于做10折交叉,因此又被分成10份,每份按排名大小的不同向圆心增长。

排名布局;散点布局;

列表视图:

对所有特征的排序,提供多种排序方式,并可对数据进行过滤

分类视图:

使用AUCscore;特征选择算法与分类算法按矩阵形式排列,并使用柱状图显示交叉验证时分类的效果,同时有数字显示平均值

【交互】zoom;慢进慢出的动画效果;重置;双击图形突出显示;提示;视图间链接;过滤;


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值