Pandas入门

最新推荐文章于 2024-08-21 23:32:17 发布

泡芙小猫

最新推荐文章于 2024-08-21 23:32:17 发布

阅读量263

点赞数 6

文章标签： pandas 学习

本文链接：https://blog.csdn.net/2301_81295559/article/details/140598925

版权

一、引言
Pandas 是 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。Pandas 为数据处理和分析提供了强大的工具和方法。

二、安装 Pandas
可以使用 pip 命令进行安装：

pip install pandas

三、导入 Pandas

import pandas as pd

四、Pandas 的主要数据结构
1. Series ：一维数组，类似于一维的列表，但带有索引。
2. DataFrame ：二维表格数据结构，类似于 Excel 表格，由行索引和列索引组成。

五、创建 DataFrame
1. 通过字典创建：

data = {'Name': ['Alice', 'Bob', 'Charlie'],

        'Age': [25, 30, 35],

        'City': ['New York', 'London', 'Paris']}

df = pd.DataFrame(data)

2. 通过读取 CSV 文件创建：

df = pd.read_csv('data.csv')

六、数据的基本操作
1. 查看数据的前几行或后几行：
df.hand() # 查看前 5 行
df.tail() # 查看后 5 行
2. 查看数据的基本信息：df.info()
3. 查看数据的描述性统计信息：df.describe()
调用 describe 函数，观察数据基本信息：
(1) count : 样本数据大
(2) mean : 样本数据的平均值
(3) std : 样本数据的标准差
(4) min : 样本数据的最小值
(5) 25% : 样本数据25%的时候的值
(6) 50% : 样本数据50%的时候的值
(7) 75% : 样本数据75%的时候的值
(8) max : 样本数据的最大值
4.判断数据是否为空，为空的地方返回True，其余地方返回False：
df.isnull()
5.逐块读取数据：

#每1000行为一个数据模块，逐块读取
chunker = pd.read_csv('./train.csv',chunksize=1000)
for i in chunker:
    print(i)

七、数据的选择与过滤
1. 选择列：df['Column_Name']
2. 选择行：
df.loc[row_index]
df.iloc[row_index]
3. 条件过滤：df[df['Column_Name'] > 10]

八、数据的处理与修改
1. 处理缺失值：
df.fillna(value) # 填充缺失值
df.dropna() # 删除包含缺失值的行
2. 数据排序：

df.sort_values(by='Column_Name')

九、数据排序
在 Pandas 中可以使用sort_values() 方法进行排序。

import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 20, 35],
        'Score': [80, 90, 70, 85]}
df = pd.DataFrame(data)
# 按照 Age 列升序排序
sorted_df = df.sort_values(by='Age',ascending=True)
print(sorted_df)
# 按照 Age 列降序排序
sorted_df_desc = df.sort_values(by='Age', ascending=False)
print(sorted_df_desc)
# 按照多列排序，先按照 Age 升序，再按照 Score 降序
sorted_df_multiple = df.sort_values(by=['Age', 'Score'], ascending=[True, False])
print(sorted_df_multiple)

泡芙小猫

关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Pandas入门

Pandas 是 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。3. 查看数据的描述性统计信息：df.describe()df.dropna() # 删除包含缺失值的行。2. 查看数据的基本信息：df.info()(5) 25% : 样本数据25%的时候的值。(6) 50% : 样本数据50%的时候的值。(7) 75% : 样本数据75%的时候的值。(2) mean : 样本数据的平均值。(3) std : 样本数据的标准差。
复制链接

扫一扫