MNIST:
CIFAR10:
CIFAR100:
后面三者是文本分类任务,没有原始特征数据直接进行BER评估的。前面三者不仅有特征转换的数据也都有原始图像像素特征数据。
后面三者都需要词袋模型进行预处理是因为,现有BER的方法(这篇论文中所提到的)都是处理数值数据的,符号数据的处理不了。
那前面三者依据需要预处理是为了减少计算量,现实数据集中特征维度都很高。降维实现计算量的减少。当然前面三个还是会跑一下原始数据看看情况,只是相当费时。
IMDB:IMDB数据集的解释_西檬饭的博客-CSDN博客_imdb数据集
其中需要词袋模型将文本转成数值特征文本预处理:词袋模型(bag of words,BOW)、TF-IDF_天泽28的博客-CSDN博客_自然语言处理 词袋模型
SST2:
YELP: