Python中Excel处理之pandns

1、打开文件

  • pd.read_csv():从 CSV 文件中读取数据并返回一个 DataFrame 对象。
  • pd.read_excel():从 Excel 文件中读取数据并返回一个 DataFrame 对象。
    import pandas as pd
    
    # 读取表格数据
    df = pd.read_excel('testExcel.xlsx')
    df2 = pd.read_csv('testCsv.csv')

2、读取文件 

1)表格文件的属性和方法
  • df.head(n):返回 DataFrame 的前 n 行,默认为前 5 行。
  • df.tail(n):返回 DataFrame 的后 n 行,默认为后 5 行。
  • df.info():显示 DataFrame 的基本信息,包括列名、数据类型和缺失值情况。
  • df.describe():显示 DataFrame 中数值列的统计信息,如平均值、标准差等。
import pandas as pd

# 读取表格数据
df = pd.read_excel('8.xlsx')
#取自开头五行数据
df5 = df.head(5)
#取自最后五行数据
df6 = df.tail(5)
for index, row in df5.iterrows():
    print("Row Index:", index)
    print("Row Data:")
    print(row)
    print("===================")

# 包括字符串类型的列
summary = df5.describe(include='all')

# 排除字符串类型的列
summary = df5.describe(exclude=['object'])
2) 数据选择和过滤
  • df[column]:选择指定列的数据,返回一个 Series 对象。
  • df[[column1, column2]]:选择多个列的数据,返回一个 DataFrame 对象。
  • df.loc[row_indexer, column_indexer]:通过标签选择指定行和列的数据。返回一个 DataFrame 对象。
  • df.iloc[row_indexer, column_indexer]:通过位置选择指定行和列的数据。返回一个 DataFrame 对象。
  • df[df['column'] > value]:根据条件过滤 DataFrame 中的数据。返回一个 DataFrame 对象。
import pandas as pd

# 创建一个示例 DataFrame
data = {'Name': ['John', 'Alice', 'Bob'],
        'Age': [25, 30, 35],
        'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)

dfColumn = df[['Name', 'Age']]
print(dfColumn)
#查询指定位置数据的两种方式
dfxy = df.loc[1, 'Name']
print(dfxy)
dfxy2 = df.iloc[1, 1]
print(dfxy2)
#查询指定判断条件的内容
dfChose = df[df['Age'] >= 30][['Name', 'Age']]
print(dfChose)
3 )迭代法全部查询

df.iterrows() 是 Pandas 中用于迭代遍历 DataFrame 行的方法。它返回一个生成器,每次迭代都会返回包含行索引和行数据的元组。

import pandas as pd

# 创建一个示例 DataFrame
data = {'Name': ['John', 'Alice', 'Bob'],
        'Age': [25, 30, 35],
        'City': ['New York', 'London', 'Paris']}
#将对象转变成pandas读取对象
df = pd.DataFrame(data)

# 使用 iterrows 迭代遍历 DataFrame 行
for index, row in df.iterrows():
    print("Row Index:", index)
    print("Row Data:")
    print(row)
    #仅显示某列数据
    print(row['Name'])
    print("------------------")

4)条件法查询 

使用相应条件或者相应位置限制获取相应的列和对象进行处理

# 选择 Age 列大于等于 30 的行,并将 City 列值修改为 'Unknown'
df.loc[df['Age'] >= 30, 'City'] = 'Unknown'
# 在 Name 列上应用自定义函数,将姓名转换为大写
df['Name'] = df['Name'].apply(lambda x: x.upper())
# 将 Age 列的值增加 5
df['Age'] = df['Age'] + 5
# 计算 Age 列的平均值
average_age = df['Age'].mean()
# 选择前5行和前两列的数据
subset_df = df.iloc[:5, :2]

 5)数据汇聚公式

df.mean():计算每列的平均值。
df.sum():计算每列的总和。
df.min():找出每列的最小值。
df.max():找出每列的最大值。
df.count():计算每列的非缺失值数量。

6) 根据数据画图

df.plot():绘制数据的基本图形。
df.hist():绘制数据的直方图。
df.boxplot():绘制数据的箱线图。
df.scatter():绘制数据的散点图。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值