Pandas读取xlsx数据（超详细）

AI_dataloads

已于 2023-09-10 23:07:53 修改

阅读量1.8w

点赞数 48

文章标签： pandas

于 2023-09-07 22:37:15 首次发布

本文链接：https://blog.csdn.net/AI_dataloads/article/details/132747378

版权

导入和处理数据是数据分析的重要一环。Pandas是一个强大且流行的Python库，用于数据处理和分析。在本篇博客中，我们将介绍如何使用Pandas库导入Excel表格，以及一些常用并且实用的操作技巧。

一：安装Pandas库

首先，确保你已经安装了Pandas库。如果没有安装，可以使用以下命令来安装：

pip install pandas

二：导入所需库和文件

我们导入pandas一般给它起个别名：pd

import pandas as pd

三：读取Excel表格数据

假设我们有一个名为"鸢尾花训练数据.xlsx"（提取码：6666）的Excel表格，其中包含我们要导入的数据。使用Pandas的read_excel()函数读取Excel文件并将数据用data接收。注意：numpy是以数组形式来读取数据，而pandas是以表格的形式来读取数据。

下面是一个示例代码：

data = pd.read_excel('鸢尾花训练数据.xlsx')

四：查看数据

数据接收了，我们现在想查看数据就可以使用Pandas的一些基本函数和属性，可以有效地查看数据。下面是一些常用的函数和属性：

head()：查看前几行数据，默认为前5行。
tail()：查看后几行数据，默认为后5行。
shape：获取数据的维度，即行数和列数。
info()：显示数据的基本信息，如列名、数据类型、非空值数量等。

这是一个完整的excel表格:

print(data.head())    #查看前几行数据，默认为前5行。

print(data.tail())   #查看后几行数据，默认为后5行。

print(data.info())    #显示数据的基本信息，如列名、数据类型、非空值数量等。

五：提取数据

进行数据处理时注意数据重排；训练模型时变量要与标签分离。data是一个DataFrame对象，我们希望选择其中几列作为变量x和y。通过使用[['column_name']]语法，我们将列名放在两层方括号中，如[['萼片长(cm)', '萼片宽(cm)', '花瓣长(cm)', '花瓣宽(cm)']]和[['类型_num']]。这会将这些列作为DataFrame对象返回给变量x和y，以便后续的数据处理和分析。

import pandas as pd
data=pd.read_excel("鸢尾花训练数据.xlsx")

x = data[['萼片长(cm)', '萼片宽(cm)', '花瓣长(cm)', '花瓣宽(cm)']]
y = data[['类型_num']]
print(x)
print(y)

AI_dataloads

关注

48
点赞
踩
274

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫