有人知道这是什么问题吗?似乎列名不能识别为标题。下面是我的代码,带有粗体对应的错误。我想编写一个通过将数据集分为训练集和测试集来训练逻辑回归的函数(70%的数据训练和30%的数据用于测试)。先感谢您。
进口
import numpy as np
import pandas as pd
import csv
from sklearn.linear_model import Logistic Regression
from sklearn.metrics import confusion_matrix
from sklearn import tree
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
from sklearn.datasets import data
from sklearn.model_selection import train_test_split
加载数据集,在列中分离数据并给出列名:
colnames=["Watermark", "Micro-print", "Ultraviolet fields", "Magnetic fields", "Diameter","Target"]
Dataset=pd.read_csv("/Users/David/Documents/Python Assignment2/data-banknote.csv", sep=',', names=colnames)
Dataset.index=np.arange(1,len(Dataset)+1)
定义TrainData和TestData
TrainData= Dataset["Watermark"],Dataset["Micro-print"],Dataset["Ultraviolet fields"],Dataset["Magnetic fields"],Dataset["Diameter"]
TestData= Dataset["Target"]
显示数据集的标题
TrainData.head()
TestData.head()
给出的错误是TrainData没有标题?
分割数据集
TrainData_train,TrainData_test,TestData_train,TestData_test = train_test_split(TrainData,TestData,test_size=0.3,random_state=0)
ValueError:找到样本数量不一致的输入变量:[4,25001]?
解决方案
暂无回答