sklearn中数据集与xlsx文件的互转

最新推荐文章于 2022-10-27 11:30:17 发布

置顶 gky9989

最新推荐文章于 2022-10-27 11:30:17 发布

阅读量2.7k

点赞数 9

分类专栏： sklearn库

本文链接：https://blog.csdn.net/gky9989/article/details/104349484

版权

sklearn库专栏收录该内容

1 篇文章 0 订阅

订阅专栏

没用过pandas库的直接用sklearn库想必会一脸懵逼：训练的数据明明保存在xlsx文件当中，该如何变成sklearn可用的数据集呢？于是针对y在最后一列的情况，写了下面两个通用模板……

（以玩具数据集iris为例，实际运用中只需修改lst1和lst2，兼容方便）

将数据集转存为xlsx文件：

import pandas as pd
import numpy as np
from sklearn import datasets
iris = datasets.load_iris()

lst1, lst2 = iris.data, iris.target#lst1是训练集中的x,lst2是训练集中的y
xi = ['x'+str(i+1) for i in range(len(lst1[0]))]
df = pd.DataFrame(lst1, columns=xi)
df['y'] = lst2
df.to_excel("try2.xlsx", index=False)

将xlsx文件读取成需要的数据集：

df = pd.read_excel('try2.xlsx')
# 行列互换
df2 = df.stack()
df3 = df2.unstack(0)
#
lst = df3.values.tolist()  # 转列表
lst1, lst2 = lst[:-1], lst[-1]
data, target = lst1, lst2
print(data)
print(target)