python--数据分析pandas

最新推荐文章于 2023-11-06 16:23:32 发布

Unicornlyy

最新推荐文章于 2023-11-06 16:23:32 发布

阅读量257

点赞数

分类专栏： python学习文章标签： python pandas 数据分析

本文链接：https://blog.csdn.net/m0_68165821/article/details/128736066

版权

python学习专栏收录该内容

51 篇文章 7 订阅

订阅专栏

1.pandas概述

Pandas是进行科学数据分析中另一个比较常用的数据库，基于NumPy，但加入了更多的高级数据结构以及操作工具，进一步简化了NumPy等运算与应用。

1.1安装

pip install pandas

可以通过import库检查Pandas是否安装成功

from pandas import Seeries,DataFrame
import pandas as pd

1.2Series数据结构

与一维数组相似，由一组数据以及对应的数据标签组成，索引在左边，值在右边。
如果没有为数据规定对应的索引，则会自动创建一个范围为0到n-1的整数索引；通过values和index属性获取数组表示形式和索引对象。
在这里插入图片描述
指定索引

obj = Series([2,7,-5,3],index = ['d','b','a','c'])

在这里插入图片描述

1.3DataFrame

是表格类型，它可以有很多有序的列，每一列都可以设置不同的内容与类型，包括字符串、数值、布尔等。
可以采用行或者列的形式进行索引，

data = {'name':['Tom','Marry','Herry'],'year':[1996,1997,1998],'grade':[86,79,93]}

frame = DataFrame(data)

frame
Out[20]: 
    name  year  grade
0    Tom  1996     86
1  Marry  1997     79
2  Herry  1998     93
#指定列顺序，则会按照指定顺序进行排列
DataFrame(data,columns = ['year','grade','name'])
Out[21]: 
   year  grade   name
0  1996     86    Tom
1  1997     79  Marry
2  1998     93  Herry
#可以获取DataFrame的某一列作为一个Series，返回的Series拥有与原来相同的索引
frame['name']
Out[22]: 
0      Tom
1    Marry
2    Herry
Name: name, dtype: object

frame.year
Out[23]: 
0    1996
1    1997
2    1998
Name: year, dtype: int64

1.4基本操作

1.4.1. 重新索引

可以创建与旧索引不同的索引，能够适应新索引对象。
reindex：根据新索引进行重排，同时如果某个索引值当前不存在，就引起缺失值。
在这里插入图片描述

1.4.2. 丢弃

drop：返回一个丢弃了指定行或列中的新对象。
（就是删除后的对象）
例一：

import numpy as np
obj=Series(np.arange(5.),index=['a','b','c','d','e'])

obj
Out[34]: 
a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

new_obj = obj.drop('c')

new_obj
Out[36]: 
a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

例二：

import numpy as np
from pandas import DataFrame
data = DataFrame(np.arange(16).reshape((4,4)),index=['math','English','Chinese','Sports'],columns = ['one','two','three','four'])

data
Out[16]: 
         one  two  three  four
math       0    1      2     3
English    4    5      6     7
Chinese    8    9     10    11
Sports    12   13     14    15

data.drop('Chinese')
Out[17]: 
         one  two  three  four
math       0    1      2     3
English    4    5      6     7
Sports    12   13     14    15

data.drop('two',axis = 1)
Out[18]: 
         one  three  four
math       0      2     3
English    4      6     7
Chinese    8     10    11
Sports    12     14    15

1.4.3. 索引

Series索引的方式类似与NumPy数组的索引，但它的索引和切片不仅可以用整数，还可以用对应的标记。

import numpy as np
from pandas import Series,DataFrame
obj = Series(np.arange(4.),index = ['a','b','c','d'])

obj
Out[20]: 
a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

obj['b']
Out[21]: 1.0

obj[1]
Out[22]: 1.0

obj[['b','c']]
Out[23]: 
b    1.0
c    2.0
dtype: float64

obj[1:3]
Out[24]: 
b    1.0
c    2.0
dtype: float64

切片运算与普通的python切片运算是不同的，你会发现其末端是包含在内的。

1.4.4. 算术运算

最常用的功能之一，它是首先保证索引对应相同，再对相应的内容进行加减等操作。如果存在不相同的索引对，则结果是该索引对的并集

import numpy as np
from pandas import Series,DataFrame
df1 = DataFrame(np.arange(9.).reshape((3,3)),columns=list('bcd'),index=['Tom','Mary','Alice'])
df2 = DataFrame(np.arange(12.).reshape((4,3)),columns=list('bde'),index=['Mary','Alice','Mike','Tom'])

df1
Out[32]: 
         b    c    d
Tom    0.0  1.0  2.0
Mary   3.0  4.0  5.0
Alice  6.0  7.0  8.0

df2
Out[33]: 
         b     d     e
Mary   0.0   1.0   2.0
Alice  3.0   4.0   5.0
Mike   6.0   7.0   8.0
Tom    9.0  10.0  11.0

df1+df2
Out[34]: 
         b   c     d   e
Alice  9.0 NaN  12.0 NaN
Mary   3.0 NaN   6.0 NaN
Mike   NaN NaN   NaN NaN
Tom    9.0 NaN  12.0 NaN

2.数据清洗

很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况，如果要对使数据分析更加准确，就需要对这些没有用的数据进行处理

2.1清洗数据

使用 dropna() 方法,要删除包含空字段的行；

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

如果你要修改源数据 DataFrame, 可以使用 inplace = True 参数；
通过 isnull() 判断各个单元格是否为空；
Pandas使用 mean()、median() 和 mode() 方法计算列的均值（所有值加起来的平均值）、中位数值（排序后排在中间的数）和众数（出现频率最高的数）；
使用 mode() 方法计算列的众数并替换空单元格