【Python】数据集处理

Python实现将数据集分成训练集与测试集

1. 数据为csv格式

  • 从UCI网址下载 Iris.data文件,直接改后缀名为.csv即可
  • 安装pandas命令: pip install pandas
    import pandas as pd
	import numpy as np 
    
    def getTrainSet(self):
        dataSet = pd.read_csv('Iris.csv')
        dataSetNP = np.array(dataSet)   #将数据由dataframe类型转换为数组类型
        np.random.shuffle(dataSetNP)    #将数组随机打乱
        trainData = dataSetNP[:120, :dataSetNP.shape[1] - 1]   #生成训练集,前120行
        labels = dataSetNP[:120, dataSetNP.shape[1] - 1]   #训练集样本对应的标签
        testData = dataSetNP[120:, :dataSetNP.shape[1] - 1]  #测试集
        testlabels = dataSetNP[120:, dataSetNP.shape[1] - 1]  #测试集样本对应的标签
        return trainData, labels, testData, testlabels

其中

np.random.shuffle(dataSetNP)    #将数组随机打乱

Iris的原始数据集是按类标签排好序的,直接按前120行做训练集,后30行做测试集是不太妥当的,因此可以选择先将数据集对应的数组按行打乱

或生成不规则的测试集

testData = dataSetNP[0:150:5, :dataSetNP.shape[1] - 1]  #测试集
testlabels = dataSetNP[0:150:5, dataSetNP.shape[1] - 1]  #测试集样本对应的标签

2. 其他格式持续补充

Python作为一种流行的编程语言,在数据处理过程中也非常常用。但是,在处理中文属性时,Python的一些常规方法可能无法直接使用。因此,针对中文属性处理,我们需要了解一些特殊的Python库和方法。 在Python中,首先需要使用pandas库来读取中文属性的数据集。pandas是一个强大的数据分析工具,支持各种数据格式的导入和导出。然后,我们需要使用Python的新次元学习(gensim)库来处理中文文本。Gensim是用于主题建模和文档相似性建模的Python库。它可以处理中文语言,包括对文本进行分词、去除停用词以及进行词向量化等操作。 另外一个可以用于中文文本处理Python库是jieba分词库。jieba是一个开源的分词库,它可以将中文文本分成一个个独立的词语。jieba支持三种分词模式:精确模式、全模式和搜索引擎模式,用户可以根据自己的需求进行调整。 最后,还可以使用Python的自然语言处理工具包NLTK来处理中文文本。NLTK是一款适用于人类语言处理Python库,它可以进行分类、标记、分析和翻译等操作。NLTK可以支持中文文本,我们可以使用NLTK中的分词器来将中文文本划分为单词。 综上所述,中文属性的数据集处理Python中可能需要使用额外的库和方法。在处理中文数据时,我们可以使用pandas库来读取数据,并结合gensim、jieba和NLTK等工具进行处理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值