Python中Excel处理之pandns

最新推荐文章于 2023-12-22 14:58:10 发布

csdcc3296

最新推荐文章于 2023-12-22 14:58:10 发布

阅读量102

点赞数

文章标签： python excel 开发语言

本文链接：https://blog.csdn.net/csdcc3296/article/details/134272239

版权

1、打开文件

pd.read_csv()：从 CSV 文件中读取数据并返回一个 DataFrame 对象。

pd.read_excel()：从 Excel 文件中读取数据并返回一个 DataFrame 对象。

import pandas as pd

# 读取表格数据
df = pd.read_excel('testExcel.xlsx')
df2 = pd.read_csv('testCsv.csv')

2、读取文件

1）表格文件的属性和方法

df.head(n)：返回 DataFrame 的前 n 行，默认为前 5 行。
df.tail(n)：返回 DataFrame 的后 n 行，默认为后 5 行。
df.info()：显示 DataFrame 的基本信息，包括列名、数据类型和缺失值情况。
df.describe()：显示 DataFrame 中数值列的统计信息，如平均值、标准差等。

import pandas as pd

# 读取表格数据
df = pd.read_excel('8.xlsx')
#取自开头五行数据
df5 = df.head(5)
#取自最后五行数据
df6 = df.tail(5)
for index, row in df5.iterrows():
    print("Row Index:", index)
    print("Row Data:")
    print(row)
    print("===================")

# 包括字符串类型的列
summary = df5.describe(include='all')

# 排除字符串类型的列
summary = df5.describe(exclude=['object'])

2）数据选择和过滤

df[column]：选择指定列的数据，返回一个 Series 对象。
df[[column1, column2]]：选择多个列的数据，返回一个 DataFrame 对象。
df.loc[row_indexer, column_indexer]：通过标签选择指定行和列的数据。返回一个 DataFrame 对象。
df.iloc[row_indexer, column_indexer]：通过位置选择指定行和列的数据。返回一个 DataFrame 对象。
df[df['column'] > value]：根据条件过滤 DataFrame 中的数据。返回一个 DataFrame 对象。

import pandas as pd

# 创建一个示例 DataFrame
data = {'Name': ['John', 'Alice', 'Bob'],
        'Age': [25, 30, 35],
        'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)

dfColumn = df[['Name', 'Age']]
print(dfColumn)
#查询指定位置数据的两种方式
dfxy = df.loc[1, 'Name']
print(dfxy)
dfxy2 = df.iloc[1, 1]
print(dfxy2)
#查询指定判断条件的内容
dfChose = df[df['Age'] >= 30][['Name', 'Age']]
print(dfChose)

3 ）迭代法全部查询

df.iterrows() 是 Pandas 中用于迭代遍历 DataFrame 行的方法。它返回一个生成器，每次迭代都会返回包含行索引和行数据的元组。

import pandas as pd

# 创建一个示例 DataFrame
data = {'Name': ['John', 'Alice', 'Bob'],
        'Age': [25, 30, 35],
        'City': ['New York', 'London', 'Paris']}
#将对象转变成pandas读取对象
df = pd.DataFrame(data)

# 使用 iterrows 迭代遍历 DataFrame 行
for index, row in df.iterrows():
    print("Row Index:", index)
    print("Row Data:")
    print(row)
    #仅显示某列数据
    print(row['Name'])
    print("------------------")

4）条件法查询

使用相应条件或者相应位置限制获取相应的列和对象进行处理

# 选择 Age 列大于等于 30 的行，并将 City 列值修改为 'Unknown'
df.loc[df['Age'] >= 30, 'City'] = 'Unknown'
# 在 Name 列上应用自定义函数，将姓名转换为大写
df['Name'] = df['Name'].apply(lambda x: x.upper())
# 将 Age 列的值增加 5
df['Age'] = df['Age'] + 5
# 计算 Age 列的平均值
average_age = df['Age'].mean()
# 选择前5行和前两列的数据
subset_df = df.iloc[:5, :2]

5）数据汇聚公式

df.mean()：计算每列的平均值。
df.sum()：计算每列的总和。
df.min()：找出每列的最小值。
df.max()：找出每列的最大值。
df.count()：计算每列的非缺失值数量。

6）根据数据画图

df.plot()：绘制数据的基本图形。
df.hist()：绘制数据的直方图。
df.boxplot()：绘制数据的箱线图。
df.scatter()：绘制数据的散点图。

csdcc3296

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Python中Excel处理之pandns

是 Pandas 中用于迭代遍历 DataFrame 行的方法。它返回一个生成器，每次迭代都会返回包含行索引和行数据的元组。使用相应条件或者相应位置限制获取相应的列和对象进行处理。
复制链接

扫一扫