libsvm
在做恶意PDF检测项目时,找到一个开源项目“pdfclassifier-master”。其中的数据是libsvm格式。于是学习了一下。
libsvm使用的训练数据和检验数据文件格式如下:
[label] [index1]:[value1] [index2]:[value2] …
[label] [index1]:[value1] [index2]:[value2] …
label 目标值,就是类别标签,通常是一些整数。
index 是有顺序的索引,通常是连续的整数。是指特征编号,必须按照升序排列
value 就是特征值,用来train的数据,通常是一堆实数组成。
通过这种格式的存储,能将大型的稀疏矩阵转化为密集的存储形式。
from sklearn.datasets import load_svmlight_file
path= ''
data = load_svmlight_file(path,dtype=np.float32)
feats = data[0]
label = data[1]
features = np.array(feats)