自然语言处理R8数据集介绍
R8
(全术语版)是路透21578数据集的两个子集。R8
有8
个类别,分为5,485
个培训和2,189
个测试文档。多用着文本分类上。
8个类别
ship
money-fx
grain
acq
trade
earn
crude
interest
根据谷歌翻译大概是以下意思
船,运输
金钱外汇
粮食
收购
贸易
赚钱
原油
利益,利息,利润
文件
R8数据集有很多版本(有的经过论文作者的预处理)
我的有两个文件R8.txt
和R8_label.txt
,
也可以两个都是R8.txt,只要不是放在同一个文件夹即可以
下载链接
链接:https://pan.baidu.com/s/1JSE_vAvxBJxywfvTbHAx5A
提取码:4r3m
复制这段内容后打开百度网盘手机App,操作更方便哦
R8.txt
一行为一个文章
比如第一行
champion products ch approves stock split champion products inc said its board of directors approved a two for one stock split of its common shares for shareholders of record as of april the company also said its board voted to recommend to shareholders at the annual meeting april an increase in the authorized capital stock from five mln to mln shares reuter
冠军产品公司(Champion Products ch)批准股票分拆冠军产品公司(Champion Products Inc)表示,其董事会已批准将普通股分为两股一股,以供4月之前登记在册的股东使用。法定股本中的股份从500万股增加到100万股
R8_label.txt
是R8的对应标签信息,顺序是和R8.txt对应的。
文章序号 是训练集或测试集 类别
0 train earn
由于是序号是和R8.txt对应的,其实一般没有用到
。
。
。