python——pandas总结

最新推荐文章于 2022-02-09 10:22:45 发布

sqiu_11

最新推荐文章于 2022-02-09 10:22:45 发布

阅读量1.1k

点赞数

分类专栏：机器学习——python 文章标签：数据分析 pandas

本文链接：https://blog.csdn.net/sqiu_11/article/details/75331176

版权

机器学习——python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Introduction

先吐槽一下，CSDN博客编写模块太难用，很多bug！！！！！！！

做了几个kaggle比赛之后，突然发现数据处理能力太差，包括缺省值处理，各种索引方式以及各种数据类型，彼此之间用法很容易搞混，因此有必要对pandas做做总结。参考了以下内容：

1、十分钟搞定pandas

2、七月在线——python数据分析班

总结内容很多，这里只贴出部分内容，具体网址是

http://download.csdn.net/detail/sqiu_11/9903036

method

Pandas基本功能简介

l 具备按轴自动或显式数据对齐功能的数据结构

l 集成时间序列功能

l 既能处理时间序列数据也能处理非时间序列数据的数据结构

l 数学运算和约简（比如对某个轴求和）可以根据不同的元数据（轴编号）执行

l 灵活处理缺失数据

l 合并及其他出现在常见数据库（例如基于SQL的）中的关系型运算

数据结构

Series：Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。

与list、numpy(array)不同之处是有索引，不需要map->key，便于查找排序等，对索引进行操作，可以替换索引。

DataFrame：

l DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等），类似于excel。

l DataFrame既有行索引(index)也有列索引(columns)，它可以被看做由Series组成的字典（共用同一个索引）。

访问行索引方式：加.ix . 例如：pd.ix[‘three’]

索引对象

l pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等）。构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index。

l Index对象是不可修改的（immutable），因此用户不能对其进行修改。不可修改性非常重要，因为这样才能使Index对象在多个数据结构之间安全共享。

from pandas import DataFrame, Series, Index
指定Series的index
obj2 = Series([5, 4, -3, 2, 1], index = ['a', 'b', 'c', 'd', 'e'])
print (obj2)
print (obj2.values)
print (obj2.index)
print (obj2['b'])
obj2['d'] = 6
print (obj2[['c', 'a', 'd']])
print (obj2[obj2 > 0])  # 找出大于0的元素
判断索引是否存在
print ('b' in obj2 )
print ( 'f' in obj2)

使用字典生成Series
sdata = {'Ohio':45000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
obj3 = Series(sdata)
print (obj3)

使用字典生成Series，并额外指定index，不匹配部分为NaN
states=['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index = states)
print (obj4)

Series相加，相同索引部分相加
print (obj3 + obj4)

指定Series及其索引的名字
obj4.name = 'population'
obj4.index.name = 'state'
print (obj4)

替换index
obj1.index = ['Bob', 'Bob', 'Steve', 'Jeff', 'Ryan']
print (obj1)

用字典生成DataFrame，key为列的名字，字典没有顺序
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year':[2000, 2001, 2002, 2001, 2002],
        'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
print (DataFrame(data))

指定列顺序，索引
frame2 = DataFrame(data, columns = ['year', 'pop', 'state', 'debt'],
                   index = ['one', 'two', 'three', 'four', 'five'])
print (frame2)
列索引方式
print (frame2.state)
print (frame2['state'])
行索引方式
print (frame2.ix['one'])

修改一列
frame2.debt = np.arange(5)
print (frame2)
修改一行
frame2.ix ['one'] = np.arange(4)
print (frame2)

用Series指定要修改的索引及其对应的值
val = Series([-1.2, -1.5, -1.7], index = ['two', 'four', 'five'])
frame2['debt'] = val
print (frame2)

赋值给新列
frame2['eastern'] = (frame2.state =='Ohio')
#frame2.state =='Ohio'是逻辑判断，是为True，否则False
print (frame2)

DataFrame转置
pop = {'Nevada':{2001:2.4, 2002:2.9},
        'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}# 字典嵌套
frame3 = DataFrame(pop)
print (frame3)
print (frame3.T)

指定索引顺序，以及使用切片初始化数据
print (DataFrame(pop, index = [2001, 2002, 2003]))
pdata = {'Ohio':frame3['Nevada'][:-1], 'Nevada':frame3['Ohio'][1:]}
#先指定列
print (DataFrame(pdata))

指定索引和列的名称
frame3.index.name = 'year'
frame3.columns.name = 'state'
print (frame3)
print (frame3.values)
print (frame2.values)

获取index
obj = Series(range(3), index = ['a', 'b', 'c'])
index = obj.index
print (index[1:])

try:
  index[1] = 'e'
except:
  print (sys.exc_info()[0])# 否则进行异常处理
print ()

使用Index对象
index = Index(np.arange(3))
obj2 = Series([1.5, -2.5, 0], index = index)
print (obj2)
print (obj2.index is index)
print ()

判断列和索引是否存在
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000:1.5, 2001: 1.7,2002: 3.6}}
frame3 = DataFrame(pop)
print ('Ohio' in frame3.columns)
print ('2003' in frame3.index)