pandas 基本使用

最新推荐文章于 2024-06-11 22:16:02 发布

Ayhan_huang

最新推荐文章于 2024-06-11 22:16:02 发布

阅读量1w

点赞数 4

分类专栏： python 文章标签： pandas 数据分析

本文链接：https://blog.csdn.net/Ayhan_huang/article/details/78396990

版权

本文介绍了Pandas，一个强大的Python数据分析工具包，包括Series和DataFrame的基本操作，如创建、数据对齐、缺失数据处理、时间序列分析等。通过实例展示了如何读取、写入文件，以及如何处理时间对象。还提供了处理缺失数据和数据对齐的常见方法。

摘要由CSDN通过智能技术生成

介绍

是什么

pandas是一个强大的Python数据分析的工具包，它是基于NumPy构建的。

关于NumPy，参考这里。

主要功能

具备对齐功能的数据结构DataFrame、Series
集成时间序列功能
提供丰富的数学运算和操作
灵活处理缺失数据

安装

pip install pandas

引用

import pandas as pd

Series

Series是一种类似于一维数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。

Series比较像列表（数组）和字典的结合体，有序，同时支持索引和键。

创建

# 默认创建
sr = pd.Series([1,5,-6,9])
""" 默认生成整数索引
0    1
1    5
2   -6
3    9
dtype: int64
"""

# 指定标签创建
pd.Series([1,5,-6,9], index=['a', 'b', 'c', 'd'])
"""
a    1
b    5
c   -6
d    9
dtype: int64
"""

# 以字典方式创建
pd.Series({
  'a':1, 'b':2})
"""
a    1
b    2
dtype: int64
"""

# 取值数组和索引数组：values属性和index属性
sr = pd.Series([1,5,-6,9])
sr.index
sr.values
"""
RangeIndex(start=0, stop=4, step=1)
array([ 1,  5, -6,  9], dtype=int64)
"""

sr = pd.Series([1,5,-6,9], index=['a', 'b', 'c', 'd'])
sr.index
sr.values
""" 说明，字符串是object
Index(['a', 'b', 'c', 'd'], dtype='object')
array([ 1,  5, -6,  9], dtype=int64)
"""

特性

Series支持NumPy模块的特性（下标）

从ndarray创建Series：Series(arr)

a = np.array([1,2,3,4])
sr = pd.Series(a, index=['a','b','c','d'])
"""
a    1
b    2
c    3
d    4
dtype: int32
"""

与标量运算：sr*2

sr = pd.Series([1,2,3,4], index=['a','b','c','d'])
sr * 2
"""
a    2
b    4
c    6
d    8
dtype: int32
"""

两个Series运算：sr1+sr2

sr1 = pd.Series([1,2,3,4])
sr2 = pd.Series([3,1,3,4])
sr1 + sr2
"""
0    4
1    3
2    6
3    8
dtype: int64
"""

索引：sr[0], sr[[1,2,4]]

sr = pd.Series([1,5,-6,9,8], index=['a', 'b', 'c', 'd', 'e'])

sr[0]  # 1 简单索引
sr[[1,2,4]]  # 花式索引
"""
b    5
c   -6
e    8
dtype: int64
"""

切片：sr[0:2]（切片依然是视图形式），顾头不顾尾

sr = pd.Series([1,5,-6,9,8], index=['a', 'b', 'c', 'd', 'e'])
sr[0:2]
"""
a    1
b    5
dtype: int64
"""

通用函数：np.abs(sr) ，参考num.py
布尔值过滤：sr[sr>0]

统计函数：mean() sum() cumsum()


# cumsum() 返回前缀和

sr = pd.Series([1,2,3,4,5])
sr.cumsum()
"""
0     1  
1     3  
2     6
3    10
4    15
dtype: int64
"""

Series支持字典的特性（标签）

从字典创建Series：Series(dic),
in运算：’a’ in sr、for x in sr
```
sr = pd.Series([1,2,
```

最低0.47元/天解锁文章

Ayhan_huang

关注

4
点赞
踩
41

收藏

觉得还不错? 一键收藏
1
评论
pandas 基本使用

介绍是什么pandas是一个强大的Python数据分析的工具包，它是基于NumPy构建的。关于NumPy，参考这里。主要功能具备对其功能的数据结构DataFrame、Series集成时间序列功能提供丰富的数学运算和操作灵活处理缺失数据安装pip install pandas引用pip install pandasSeriesSeries是一种类似于一维数组的对象，由一组数据和一组与之相关的
复制链接

扫一扫