python数据分析之Pandas(1)

数学建模自用

python数据分析之Pandas(1)

1.1 基本介绍

Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

import pandas as pd
import numpy as np

Pandas 基本数据结构

pandas有两种常用的基本结构:

  • Series
    • 一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很接近。Series能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。
  • DataFrame
    • 二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。

1.2 Series类型

一维Series可以用一维列表初始化:

s = pd.Series([1,3,5,np.nan,6,8])#inp.nan设置空值
print(s)

0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64

默认情况下,Series的下标都是数字,类型是统一的,也可以使用额外参数指定,格式如下:

s = pd.Series([1,3,5,np.nan,6,8],index = ['a','b','c','d','x','y'])
print(s)

a 1.0
b 3.0
c 5.0
d NaN
x 6.0
y 8.0
dtype: float64

索引——数据的行标签

s.index #从0到6(不含),1为步长

RangeIndex(start=0, stop=6, step=1)

s.values

array([ 1., 3., 5., nan, 6., 8.])

s[3]

nan

切片操作

s[2:5] #左闭右开

2 5.0
3 NaN
4 6.0
dtype: float64

s[::2]

0 1.0
2 5.0
4 6.0
dtype: float64

索引赋值

s.index.name = '索引'
s

索引
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64

通过index直接进行索引的赋值:

s.index = list('abcdef')
s

a 1.0
b 3.0
c 5.0
d NaN
e 6.0
f 8.0
dtype: float64

s['a':'c':2] #可以依据自己定义的数据类型进行切片,不是左闭右开了

a 1.0
c 5.0
dtype: float64

1.3 Pandas库的DataFrame类型

DataFrame则是个二维结构,首先构造一组时间序列,作为我们第一维的下标:

date = pd.date_range("20180101", periods = 6)#起点为20180101,生成六个时间
print(date)

DatetimeIndex([‘2018-01-01’, ‘2018-01-02’, ‘2018-01-03’, ‘2018-01-04’,
‘2018-01-05’, ‘2018-01-06’],
dtype=‘datetime64[ns]’, freq=‘D’)

然后创建一个DataFrame结构:

df = pd.DataFrame(np.random.randn(6,4), index = date, columns = list("ABCD"))#rand:正态分布
df
ABCD
2018-01-010.1239591.4106451.160156-0.040847
2018-01-020.193493-0.258162-0.369650-0.904703
2018-01-03-0.561793-0.3184620.550636-0.880063
2018-01-04-0.3273590.779404-0.595986-1.353959
2018-01-05-0.7504520.0108930.905383-1.959101
2018-01-060.6795080.3328390.992519-0.357603

默认情况下,如果不指定index参数和columns,那么它们的值将从用0开始的数字替代。

df = pd.DataFrame(np.random.randn(6,4))
df
0123
00.4325380.453100-0.4730340.724094
11.0497421.2051830.5695270.736256
2-1.588060-0.5148171.567094-0.030165
30.3960220.5599140.5605410.652242
40.0109201.2147670.2825960.199455
51.9590161.5919111.405936-0.336585

除了向DataFrame中传入二维数组,我们也可以使用字典(大括号)传入数据:

df2 = pd.DataFrame({'A':1.,'B':pd.Timestamp("20181001"),'C':pd.Series(1,index = list(range(4)),dtype = float),'D':np.array([3]*4, dtype = int),'E':pd.Categorical(["test","train","test","train"]),'F':"abc"}) 
#B:时间戳,E:分类类型
df2
ABCDEF
01.02018-10-011.03testabc
11.02018-10-011.03trainabc
21.02018-10-011.03testabc
31.02018-10-011.03trainabc
df2.dtypes #查看各个列的数据类型

A float64
B datetime64[ns]
C float64
D int32
E category
F object
dtype: object

字典的每个key代表一列,其value可以是各种能够转化为Series的对象。

Series要求所有的类型都一致不同,DataFrame只要求每一列数据的格式相同。

查看数据

头尾数据

headtail方法可以分别查看最前面几行和最后面几行的数据(默认为5):

df.head()
ABCD
2018-01-010.1239591.4106451.160156-0.040847
2018-01-020.193493-0.258162-0.369650-0.904703
2018-01-03-0.561793-0.3184620.550636-0.880063
2018-01-04-0.3273590.779404-0.595986-1.353959
2018-01-05-0.7504520.0108930.905383-1.959101

最后3行:

df.tail(3)
ABCD
2018-01-04-0.3273590.779404-0.595986-1.353959
2018-01-05-0.7504520.0108930.905383-1.959101
2018-01-060.6795080.3328390.992519-0.357603

下标,列标,数据

下标使用index属性查看:

df.index

DatetimeIndex([‘2018-01-01’, ‘2018-01-02’, ‘2018-01-03’, ‘2018-01-04’,
‘2018-01-05’, ‘2018-01-06’],
dtype=‘datetime64[ns]’, freq=‘D’)

列标使用columns属性查看:

df.columns

Index([‘A’, ‘B’, ‘C’, ‘D’], dtype=‘object’)

数据值使用values查看:

df.values

array([[ 0.1239595 , 1.41064454, 1.16015591, -0.04084732],
[ 0.19349291, -0.25816156, -0.36965027, -0.90470255],
[-0.56179325, -0.31846176, 0.55063633, -0.88006321],
[-0.32735894, 0.77940414, -0.59598597, -1.35395863],
[-0.75045196, 0.01089313, 0.90538264, -1.95910089],
[ 0.67950791, 0.33283874, 0.99251905, -0.35760335]])

1.4 pandas读取数据及数据操作

以豆瓣的电影数据作为我们深入了解Pandas的一个示例。

df = pd.read_excel(r"E:\python\作业3\豆瓣电影数据.xlsx",index_col = 0) 
#r告诉编译器不需要转义
df.head()
名字投票人数类型产地上映时间时长年代评分首映地点
0肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
1控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
2美丽人生327855.0剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利
3阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
4霸王别姬478523.0剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港

行操作

df.iloc[0]#第一行

名字 肖申克的救赎
投票人数 692795.0
类型 剧情/犯罪
产地 美国
上映时间 1994-09-10 00:00:00
时长 142
年代 1994
评分 9.6
首映地点 多伦多电影节
Name: 0, dtype: object

df.iloc[0:5] #左闭右开,前五行
名字投票人数类型产地上映时间时长年代评分首映地点
0肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
1控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
2美丽人生327855.0剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利
3阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
4霸王别姬478523.0剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港

也可以使用loc

df.loc[0:5] #不是左闭右开
名字投票人数类型产地上映时间时长年代评分首映地点
0肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
1控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
2美丽人生327855.0剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利
3阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
4霸王别姬478523.0剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港
5泰坦尼克号157074.0剧情/爱情/灾难美国2012-04-10 00:00:0019420129.4中国大陆
添加一行
dit = {"名字":"复仇者联盟3","投票人数":123456,"类型":"剧情/科幻","产地":"美国","上映时间":"2018-05-04 00:00:00","时长":142,"年代":2018,"评分":np.nan,"首映地点":"美国"}
s = pd.Series(dit)
s.name = 38738
s

名字 复仇者联盟3
投票人数 123456
类型 剧情/科幻
产地 美国
上映时间 2018-05-04 00:00:00
时长 142
年代 2018
评分 NaN
首映地点 美国
Name: 38738, dtype: object

df = df._append(s) #_appends:覆盖掉原来的数据重新进行赋值
df[-5:]
名字投票人数类型产地上映时间时长年代评分首映地点
387341935年57.0喜剧/歌舞美国1935-03-15 00:00:009819357.6美国
38735血溅画屏95.0剧情/悬疑/犯罪/武侠/古装中国大陆1905-06-08 00:00:009119867.1美国
38736魔窟中的幻想51.0惊悚/恐怖/儿童中国大陆1905-06-08 00:00:007819868.0美国
38737列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...32.0剧情/战争苏联1905-05-30 00:00:009719776.6美国
38738复仇者联盟3123456.0剧情/科幻美国2018-05-04 00:00:001422018NaN美国
删除一行
df = df.drop([38738])
df[-5:]
名字投票人数类型产地上映时间时长年代评分首映地点
38733神学院 S46.0Adult法国1905-06-05 00:00:005819838.6美国
387341935年57.0喜剧/歌舞美国1935-03-15 00:00:009819357.6美国
38735血溅画屏95.0剧情/悬疑/犯罪/武侠/古装中国大陆1905-06-08 00:00:009119867.1美国
38736魔窟中的幻想51.0惊悚/恐怖/儿童中国大陆1905-06-08 00:00:007819868.0美国
38737列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...32.0剧情/战争苏联1905-05-30 00:00:009719776.6美国

列操作

df.columns

Index([‘名字’, ‘投票人数’, ‘类型’, ‘产地’, ‘上映时间’, ‘时长’, ‘年代’, ‘评分’, ‘首映地点’], dtype=‘object’)

df["名字"][:5] #后面中括号表示只想看到的行数,下同

0 肖申克的救赎
1 控方证人
2 美丽人生
3 阿甘正传
4 霸王别姬
Name: 名字, dtype: object

df[["名字","类型"]][:5]
名字类型
0肖申克的救赎剧情/犯罪
1控方证人剧情/悬疑/犯罪
2美丽人生剧情/喜剧/爱情
3阿甘正传剧情/爱情
4霸王别姬剧情/爱情/同性
增加一列
df["序号"] = range(1,len(df)+1) #生成序号的基本方式
df[:5]
名字投票人数类型产地上映时间时长年代评分首映地点序号
0肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节1
1控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国2
2美丽人生327855.0剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利3
3阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映4
4霸王别姬478523.0剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港5
删除一列
df = df.drop("序号",axis = 1) #axis指定方向,0为行1为列,默认为0
df[:5]
名字投票人数类型产地上映时间时长年代评分首映地点
0肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
1控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
2美丽人生327855.0剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利
3阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
4霸王别姬478523.0剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港
通过标签选择数据

df.loc[[index],[colunm]]通过标签选择数据

df.loc[1,"名字"]

‘控方证人’

df.loc[[1,3,5,7,9],["名字","评分"]] #多行跳行多列跳列选择
名字评分
1控方证人9.5
3阿甘正传9.4
5泰坦尼克号9.4
7新世纪福音战士剧场版:Air/真心为你 新世紀エヴァンゲリオン劇場版 Ai9.4
9这个杀手不太冷9.4

条件选择

选取产地为美国的所有电影
df[df["产地"] == "美国"][:5] #内部为bool类型
名字投票人数类型产地上映时间时长年代评分首映地点
0肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
1控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
3阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
5泰坦尼克号157074.0剧情/爱情/灾难美国2012-04-10 00:00:0019420129.4中国大陆
6辛德勒的名单306904.0剧情/历史/战争美国1993-11-30 00:00:0019519939.4华盛顿首映
选取产地为美国的所有电影,并且评分大于9分的电影
df[(df.产地 == "美国") & (df.评分 > 9)][:5] #df.标签:更简洁的写法
名字投票人数类型产地上映时间时长年代评分首映地点
0肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
1控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
3阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
5泰坦尼克号157074.0剧情/爱情/灾难美国2012-04-10 00:00:0019420129.4中国大陆
6辛德勒的名单306904.0剧情/历史/战争美国1993-11-30 00:00:0019519939.4华盛顿首映
选取产地为美国或中国大陆的所有电影,并且评分大于9分
df[((df.产地 == "美国") | (df.产地 == "中国大陆")) & (df.评分 > 9)][:5]
名字投票人数类型产地上映时间时长年代评分首映地点
0肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
1控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
3阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
4霸王别姬478523.0剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港
5泰坦尼克号157074.0剧情/爱情/灾难美国2012-04-10 00:00:0019420129.4中国大陆

1.5 缺失值及异常值处理

缺失值处理方法:

方法说明
dropna根据标签中的缺失值进行过滤,删除缺失值
fillna对缺失值进行填充
isnull返回一个布尔值对象,判断哪些值是缺失值
notnullisnull的否定式

判断缺失值

df[df.名字.isnull()][:10]
名字投票人数类型产地上映时间时长年代评分首映地点
231NaN144.0纪录片/音乐韩国2011-02-02 00:00:009020119.7美国
361NaN80.0短片其他1905-05-17 00:00:00419645.7美国
369NaN5315.0剧情日本2004-07-10 00:00:0011120047.5日本
372NaN263.0短片/音乐英国1998-06-30 00:00:003419989.2美国
374NaN47.0短片其他1905-05-17 00:00:00319646.7美国
375NaN1193.0短片/音乐法国1905-07-01 00:00:001020107.7美国
411NaN32.0短片其他1905-05-17 00:00:00319647.0美国
432NaN1081.0剧情/动作/惊悚/犯罪美国2016-02-26 00:00:0011520166.0美国
441NaN213.0恐怖美国2007-03-06 00:00:008320073.2美国
448NaN110.0纪录片荷兰2002-04-19 00:00:004820009.3美国
df[df.名字.notnull()][:5]
名字投票人数类型产地上映时间时长年代评分首映地点
0肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
1控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
2美丽人生327855.0剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利
3阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
4霸王别姬478523.0剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港

填充缺失值

df[df["评分"].isnull()][:10] #注意这里特地将前面加入的复仇者联盟令其评分缺失来举例
名字投票人数类型产地上映时间时长年代评分首映地点
38738复仇者联盟3123456.0剧情/科幻美国2018-05-04 00:00:001422018NaN美国
df["评分"].fillna(np.mean(df["评分"]), inplace = True) #使用均值来进行替代,inplace意为直接在原始数据中进行修改
df[-5:]
名字投票人数类型产地上映时间时长年代评分首映地点
387341935年57.0喜剧/歌舞美国1935-03-15 00:00:009819357.600000美国
38735血溅画屏95.0剧情/悬疑/犯罪/武侠/古装中国大陆1905-06-08 00:00:009119867.100000美国
38736魔窟中的幻想51.0惊悚/恐怖/儿童中国大陆1905-06-08 00:00:007819868.000000美国
38737列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...32.0剧情/战争苏联1905-05-30 00:00:009719776.600000美国
38738复仇者联盟3123456.0剧情/科幻美国2018-05-04 00:00:0014220186.935704美国
df1 = df.fillna("未知电影") #只要是空值,就用“未知电影”填充(谨慎使用)
df1[df1["名字"].isnull()][:10]
名字投票人数类型产地上映时间时长年代评分首映地点

删除缺失值

df.dropna() 参数

how = 'all':删除全为空值的行或列
inplace = True: 覆盖之前的数据
axis = 0: 选择行或列,默认是行
len(df)

38739

df2 = df.dropna()
len(df2)

38176

df.dropna(inplace = True)
len(df) #inplace覆盖掉原来的值

38176

处理异常值

异常值,即在数据集中存在不合理的值,又称离群点。比如投票人数为-1等,都属于异常值的范围。

df[df["投票人数"] < 0] #直接删除,或者找原始数据来修正都行
名字投票人数类型产地上映时间时长年代评分首映地点
19777皇家大贼 皇家大-80.0剧情/犯罪中国香港1985-05-31 00:00:006019856.3美国
19786日本的垃圾去中国大陆 にっぽんの“ゴミ” 大陆へ渡る ~中国式リサイクル錬-80.0纪录片日本1905-06-26 00:00:006020047.9美国
19797女教徒-118.0剧情法国1966-05-06 00:00:0013519667.8美国
df[df["投票人数"] % 1 != 0] #小数异常值
名字投票人数类型产地上映时间时长年代评分首映地点
19791女教师 女教8.30剧情/犯罪日本1977-10-29 00:00:0010019776.6日本
19804女郎漫游仙境 ドレミファ娘の血は騒5.90喜剧/歌舞日本1985-11-03 00:00:008019856.7日本
19820女仆日记12.87剧情法国2015-04-01 00:00:009620155.7法国
38055逃出亚卡拉12.87剧情/动作/惊悚/犯罪美国1979-09-20 00:00:0011219797.8美国

对于异常值,一般来说数量都会很少,在不影响整体数据分布的情况下,我们直接删除就可以了

其他属性的异常值处理,我们会在格式转换部分,进一步讨论

df = df[df.投票人数 > 0]
df = df[df["投票人数"] % 1 == 0]

1.6 数据保存

数据处理之后,然后将数据重新保存到movie_data.xlsx

df.to_excel("movie_data.xlsx") #默认路径为现在文件夹所在的路径
  • 20
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值