临近取样算法实现(python)
import csv
import random
import math
import operator
"""
将总数据集拆分成训练数据与测试数据两部份
1.filename样本数据文件
split训练数据与测试数据拆分比例
trainingSet训练数据集
testSet测试数据集
2.循环样本数据集,生成一个随机值,如果小于split值归为训练数据集
如果大于split值归为测试数据集
"""
def loadDataset(filename,split,trainingSet=[],testSet=[]):
with open(filename,'r',encoding='utf-8') as csvfile:
lines = csv.reader(csvfile)
dataset = list(lines)
for x in range(len(dataset)-1):
print("x:"+str(dataset[x+1]))
for y in range(4):
dataset[x+1][y] = float(dataset[x+1][y])
if random.random() < split:
trainingSet.append(dataset[x+1])
else:
testSet.append(