FeeBee数据集介绍

MNIST:

CIFAR10:

CIFAR100:

后面三者是文本分类任务,没有原始特征数据直接进行BER评估的。前面三者不仅有特征转换的数据也都有原始图像像素特征数据。

后面三者都需要词袋模型进行预处理是因为,现有BER的方法(这篇论文中所提到的)都是处理数值数据的,符号数据的处理不了。

那前面三者依据需要预处理是为了减少计算量,现实数据集中特征维度都很高。降维实现计算量的减少。当然前面三个还是会跑一下原始数据看看情况,只是相当费时。

IMDB:IMDB数据集的解释_西檬饭的博客-CSDN博客_imdb数据集

其中需要词袋模型将文本转成数值特征文本预处理:词袋模型(bag of words,BOW)、TF-IDF_天泽28的博客-CSDN博客_自然语言处理 词袋模型

文本表示之词袋模型 - 知乎

基于Doc2vec训练句子向量 - 知乎

SST2:

YELP:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值