一、Pandas简介
Pandas是一个开源的Python数据分析库,提供了高性能、易于使用的数据结构和数据分析工具。它是基于NumPy构建的,主要用于数据清洗和分析。Pandas的主要数据结构有两种:Series(一维)和DataFrame(二维)。
二、Pandas数据类型
- 数值型:int、float
- 字符串型:object
- 布尔型:bool
- 时间序列:datetime64
- 分类数据:category
三、Pandas数据查看
- 查看前n行或后n行数据:
df.head(n)
或df.tail(n)
- 查看列名:
df.columns
- 查看索引:
df.index
- 查看数据形状:
df.shape
- 查看数据信息:
df.info()
- 查看数据描述性统计:
df.describe()
- 查看某一列的数据类型:
df['column_name'].dtype
四、Pandas条件查询
- 基于条件筛选行:
df[df['column_name'] > value]
- 基于多个条件筛选行:
df[(df['column1'] > value1) & (df['column2'] < value2)]
- 对某一列应用函数:
df['column_name'].apply(function_name)
- 对DataFrame的每一行应用函数:
df.apply(function_name, axis=1)
import pandas as pd
# 创建一个DataFrame
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
# 查看前2行数据
print(df.head(2))
# 查看列名
print(df.columns)
# 查看索引
print(df.index)
# 查看数据形状
print(df.shape)
# 查看数据信息
print(df.info())
# 查看数据描述性统计
print(df.describe())
# 查看某一列的数据类型
print(df['A'].dtype)
# 基于条件筛选行
print(df[df['A'] > 1])
# 基于多个条件筛选行
print(df[(df['A'] > 1) & (df['B'] < 6)])
# 对某一列应用函数
print(df['A'].apply(lambda x: x * 2))
# 对DataFrame的每一行应用函数
print(df.apply(lambda x: x.sum(), axis=1))