实际评估算法的优劣论文 使用监督数据集
数据集介绍
本节给出我们研究中考虑的成本敏感分类数据集的一些细节。
1多分类的数据集。我们考虑来自openml的525个多分类数据集。org平台,包括医疗、基因表达、文本、感官或合成数据等。表6提供了关于这些数据集的一些统计数据。这些还包括UCI数据库中考虑的8个分类数据集(Foster等人,2018年)。完整的数据集列表如下所示。
![](https://i-blog.csdnimg.cn/blog_migrate/80b8d45a71f6f2b1b74965e429e0657a.png)
对对多分类数据集的描述性统计 按照action数量 样本量 特征量 和PV值 进行划分
多标签数据集
2.
![](https://i-blog.csdnimg.cn/blog_migrate/5585c6f383eec44dfbad0da08eae5895.png)
3.
![](https://i-blog.csdnimg.cn/blog_migrate/c7292d6c3441afb74375eaa310c03673.png)
对多标签数据集RCV1进行修改
每个样本都包含一篇新闻文章,在103个主题的集合中使用它所属的主题进行标记。对于不正确的主题,成本不是固定为1,而是定义为到主题层次结构中正确主题集的树距离。
![](https://i-blog.csdnimg.cn/blog_migrate/ede0c48d10ede3421b1c2e6c5627b9c8.png)