pandas 基本使用

本文介绍了Pandas,一个强大的Python数据分析工具包,包括Series和DataFrame的基本操作,如创建、数据对齐、缺失数据处理、时间序列分析等。通过实例展示了如何读取、写入文件,以及如何处理时间对象。还提供了处理缺失数据和数据对齐的常见方法。
摘要由CSDN通过智能技术生成

介绍

是什么

pandas是一个强大的Python数据分析的工具包,它是基于NumPy构建的。

关于NumPy,参考这里

主要功能

  1. 具备对齐功能的数据结构DataFrame、Series
  2. 集成时间序列功能
  3. 提供丰富的数学运算和操作
  4. 灵活处理缺失数据

安装

pip install pandas

引用

import pandas as pd

Series

Series是一种类似于一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组成。

Series比较像列表(数组)和字典的结合体,有序,同时支持索引和键。

创建

# 默认创建
sr = pd.Series([1,5,-6,9])
""" 默认生成整数索引
0    1
1    5
2   -6
3    9
dtype: int64
"""

# 指定标签创建
pd.Series([1,5,-6,9], index=['a', 'b', 'c', 'd'])
"""
a    1
b    5
c   -6
d    9
dtype: int64
"""

# 以字典方式创建
pd.Series({
  'a':1, 'b':2})
"""
a    1
b    2
dtype: int64
"""

# 取值数组和索引数组:values属性和index属性
sr = pd.Series([1,5,-6,9])
sr.index
sr.values
"""
RangeIndex(start=0, stop=4, step=1)
array([ 1,  5, -6,  9], dtype=int64)
"""

sr = pd.Series([1,5,-6,9], index=['a', 'b', 'c', 'd'])
sr.index
sr.values
""" 说明,字符串是object
Index(['a', 'b', 'c', 'd'], dtype='object')
array([ 1,  5, -6,  9], dtype=int64)
"""

特性

Series支持NumPy模块的特性(下标)

  1. 从ndarray创建Series:Series(arr)

    a = np.array([1,2,3,4])
    sr = pd.Series(a, index=['a','b','c','d'])
    """
    a    1
    b    2
    c    3
    d    4
    dtype: int32
    """

  2. 与标量运算:sr*2

    sr = pd.Series([1,2,3,4], index=['a','b','c','d'])
    sr * 2
    """
    a    2
    b    4
    c    6
    d    8
    dtype: int32
    """

  3. 两个Series运算:sr1+sr2

    sr1 = pd.Series([1,2,3,4])
    sr2 = pd.Series([3,1,3,4])
    sr1 + sr2
    """
    0    4
    1    3
    2    6
    3    8
    dtype: int64
    """

  4. 索引:sr[0], sr[[1,2,4]]

    sr = pd.Series([1,5,-6,9,8], index=['a', 'b', 'c', 'd', 'e'])
    
    sr[0]  # 1 简单索引
    sr[[1,2,4]]  # 花式索引
    """
    b    5
    c   -6
    e    8
    dtype: int64
    """

  5. 切片:sr[0:2](切片依然是视图形式),顾头不顾尾

    sr = pd.Series([1,5,-6,9,8], index=['a', 'b', 'c', 'd', 'e'])
    sr[0:2]
    """
    a    1
    b    5
    dtype: int64
    """

  6. 通用函数:np.abs(sr) ,参考num.py

  7. 布尔值过滤:sr[sr>0]

  8. 统计函数:mean() sum() cumsum()

    
    # cumsum() 返回前缀和
    
    sr = pd.Series([1,2,3,4,5])
    sr.cumsum()
    """
    0     1  
    1     3  
    2     6
    3    10
    4    15
    dtype: int64
    """

Series支持字典的特性(标签)

  1. 从字典创建Series:Series(dic),

  2. in运算:’a’ in sr、for x in sr

    sr = pd.Series([1,2,
  • 4
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值