Pandas入门

一、引言
Pandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 为数据处理和分析提供了强大的工具和方法。

二、安装 Pandas
可以使用 pip 命令进行安装:

pip install pandas

三、导入 Pandas

import pandas as pd

四、Pandas 的主要数据结构
1.  Series :一维数组,类似于一维的列表,但带有索引。
2.  DataFrame :二维表格数据结构,类似于 Excel 表格,由行索引和列索引组成。

五、创建 DataFrame
1. 通过字典创建:

data = {'Name': ['Alice', 'Bob', 'Charlie'],

        'Age': [25, 30, 35],

        'City': ['New York', 'London', 'Paris']}

df = pd.DataFrame(data)

2. 通过读取 CSV 文件创建:

df = pd.read_csv('data.csv')

六、数据的基本操作
1. 查看数据的前几行或后几行:
df.hand()  # 查看前 5 行
df.tail()     # 查看后 5 行
2. 查看数据的基本信息:df.info()
3. 查看数据的描述性统计信息:df.describe()
调用 describe 函数,观察数据基本信息:
(1) count : 样本数据大
(2) mean : 样本数据的平均值
(3) std : 样本数据的标准差
(4) min : 样本数据的最小值
(5) 25% : 样本数据25%的时候的值
(6) 50% : 样本数据50%的时候的值
(7) 75% : 样本数据75%的时候的值
(8) max : 样本数据的最大值
4.判断数据是否为空,为空的地方返回True,其余地方返回False:
df.isnull()
5.逐块读取数据:

#每1000行为一个数据模块,逐块读取
chunker = pd.read_csv('./train.csv',chunksize=1000)
for i in chunker:
    print(i)

七、数据的选择与过滤
1. 选择列:df['Column_Name']
2. 选择行:
df.loc[row_index]
df.iloc[row_index]
3. 条件过滤:df[df['Column_Name'] > 10]

八、数据的处理与修改
1. 处理缺失值:
df.fillna(value) # 填充缺失值
df.dropna() # 删除包含缺失值的行
2. 数据排序:

df.sort_values(by='Column_Name')

 九、数据排序
在 Pandas 中可以使用sort_values() 方法进行排序。

import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 20, 35],
        'Score': [80, 90, 70, 85]}
df = pd.DataFrame(data)
# 按照 Age 列升序排序
sorted_df = df.sort_values(by='Age',ascending=True)
print(sorted_df)
# 按照 Age 列降序排序
sorted_df_desc = df.sort_values(by='Age', ascending=False)
print(sorted_df_desc)
# 按照多列排序,先按照 Age 升序,再按照 Score 降序
sorted_df_multiple = df.sort_values(by=['Age', 'Score'], ascending=[True, False])
print(sorted_df_multiple)

  • 6
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值