使用numpy读取数据集:
训练集与测试集划分
import numpy as np
dataset_filename = 'affinity_dataset.txt'
X = np.loadtxt(dataset_filename )
sklearn库的相关概念:
estimator:估计器,用于分类、聚类和回归分析。
transformer:转换器,用于数据预处理和数据转换。
pipeline:流水线,组合数据挖掘流程,便于再次使用。
估计器用于分类任务,主要包括以下两个函数:
fit( ):训练算法,设置内部参数,完成模型的创建。
predict( ):预测测试集类别,并返回一个包含测试集各条数据类别的数组。
import csv
with open(data_filename, 'r') as input_file:
reader = csv.reader(input_file)
训练集与测试集划分
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 14)
导入分类器包,