一、安装NNI和依赖
pip install nni
pip install sklearn
- 不建议在Win10下面装NNI,因为需要c++14.0很麻烦。
- 另外 nni==2.2
二、数据集
- 下载地址:https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/rcv1_train.binary.bz2
- 下载好了之后改名为 train.bz2 和项目代码放一起。
- 数据集介绍:
- 2000年,路透社提供了大量的路透新闻报道作为语料,用于研究和开发自然语言处理、信息检索和机器学习系统。 这个被称为“路透社语料库”(Volume 1)或文本分类语料库RCV1,语料库显着大于使用的较老的着名的Reuters-21578语料库。
- 这个数据集格式采用libsvm格式,libsvm使用的训练数据和检验数据文件格式如下: [label] [index1]:[value1] [index2]:[value2] …
label 目标值,就是说class(属于哪一类),就是你要分类的种类,通常是一些整数。
index 是有顺序的索引,通常是连续的整数。就是指特征编号,必须按照升序排列