1.PlanningRelax数据集
数据集地址: http://archive.ics.uci.edu/ml/datasets/planning+relax
该数据为2012年数据,刚好做一个分类模型用到了这个数据集分析,当与其他方法进行比较时,我在网上找了一下,分析与用来分类的方法挺少,所以在此做一个简单分析。
2.如何把数据拿来用
找了半天没找到在哪下载,于是将数据复制到txt中,采用下面的代码处理一下
dataFrame = csv.reader(open(‘D:/ProjectPyTest/testFile/planningRelax.txt’))
dataset=[]
for line in dataFrame:
for word in line:
temp1 = word.strip(’\t’)
temp2 = temp1.split(’\t’)
data = np.array(temp2,dtype=np.float32)
data = np.reshape(data,newshape=[13])
dataset.append(data)
dataset = np.reshape(dataset,newshape=[182,13])
data = dataset[:,:-1]
target = dataset[:,-1]
kind = set(target)
data = np.array(data)
print(‘数据集大小:’,np.shape(data))
print(‘第一个样本数据:’,data[0])
print(‘target中元素类型:’,kind,‘target shape:’,np.shape(target)) #得到列表内有什么元素
print(‘target:’,target)
kind = list(kind)
target = list(target)
for i in kind:
print(’%d的数量:%d’%(i,target.count(i)))
data = np.array(data)
target = np.array(target)
sort_index = np.argsort(target)
data = data[sort_index]
target = target[sort_index]
print(data)
print(target)
得到的data是182,12维数据,target是182,1数据,已经将数据按照分类结果从小到大排好序了,可以直接用了。
第一类:130个。第二类:52个。
概率神经网络是:67.9%,强化概率神经网络是:67.2%,支持向量机是70%。