python读取鸢尾花数据集并进行训练测试集分割

最新推荐文章于 2024-08-01 23:02:04 发布

AlistarHu

最新推荐文章于 2024-08-01 23:02:04 发布

阅读量1.7w

点赞数 3

分类专栏： python

本文链接：https://blog.csdn.net/u011997078/article/details/51243320

版权

这篇博客记录了使用Python在处理鸢尾花数据集时遇到的问题，特别是关于如何正确分割数据集为训练集和测试集的过程，旨在避免将来遇到类似list操作错误。

摘要由CSDN通过智能技术生成

数据分割时遇到一些list方面问题，在此记录，谨防下次出现类似错误！

# -*- coding: utf-8 -*-
from numpy import *
import operator
from os import listdir

# x,y=getDataSet('iris.data.txt',4)
#tr1,tr2,ts1,ts2 = dataDiv(x,y)

def getDataSet(filename,numberOfFeature):       #将数据集读入内存  
    fr = open(filename)
    numberOfLines = len(fr.readlines())         #get the number of lines in the file  file.readlines()是把文件的全部内容读到内存，并解析成一个list
    returnMat = zeros((numberOfLines,numberOfFeature))        #prepare matrix to return  3代表数据集中特征数目###
    classLabelVector = []                       #prepare labels return   
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()                    #strip() 参数为空时，默认删除空白符（包括'\n', '\r',  '\t',  ' ')
        listFromLine = line.split(',')         #split 以什么为标准分割一次  分成数组中的每个