python中的pandas库

前排提示:

        本文仅仅作为个人的学习笔记使用,作者是根据《Python机器学习入门与实战(以实操为基础,以入行为目的,快速帮助你掌握Python机器学习相关技能)》——人民邮电出版社这本书为基础,所做的一个个人小笔记。

  1. 认识Series类

Series类就行字典一样,可以通过字典生成,也可以使用下面的方式生成

from pandas import Series 
import pandas as pd
# Series 
# series 就像是dict键值对,默认的键都是0~n-1,可以自己进行更改
obj=Series([
    2871142,39191,28112,
    37131,26142
    ]) 
obj_index=obj.index #这个是索引
obj_values=obj.values #这个是数值
print("默认的索引是:",obj_index) 
print("访问:",obj[0])
new_index=["柳如烟","萧炎","顾德拜","钱淼","严森"]
obj.index=new_index
print("更新后的数据为:\n",obj)

#访问的方式,通过键值对访问
print(obj["萧炎"])
  1. Series类的运算
from pandas import Series 
# Series类之间如果相加的话,如果数值相同就可以直接加起来
#没有的部分会变成Nan
goods_in=Series(
    {"苹果":30,
     "梨":25,
     "香蕉":20,
     "桃":21,
     "李子":15}
    ) 
goods_other_in=Series(
    {"苹果":10,
     "梨":20,
     "香蕉":15,
     "桃":10,
     "西瓜":50}
     ) 
goods_kucun=goods_in+goods_other_in 
print(goods_kucun)
  1. DataFrame 构建

这里的可以有很多个columns,DataFrame同样也有索引,因此也可以通过[]访问

from pandas import DataFrame 
import numpy as np


#使用dict 构建DataFrame 
paints={"字画名称":["旭日东升","富水长流","招财进宝","鸿运当头"], 
"字画底价":[2860,498,1068,598], 
"字画拍卖加价":[1000,2000,500,1500]} 
goods_in=DataFrame(paints,columns=["字画名称","字画拍卖加价","字画底价"])#这里的顺序可以指定 
print(goods_in)
goods_in=DataFrame(paints,index=["第一副","第二幅","第三幅","第四幅"])#添加索引
print(goods_in)

  1. DataFrame的访问
from pandas import DataFrame 
import numpy as np


#使用dict 构建DataFrame 
paints={"字画名称":["旭日东升","富水长流","招财进宝","鸿运当头"], 
"字画底价":[2860,498,1068,598], 
"字画拍卖加价":[1000,2000,500,1500]} 
goods_in=DataFrame(paints,index=["第一副","第二幅","第三幅","第四幅"])#添加索引

#可以通过下面的方法来进行输出索引
paints_three=goods_in.loc["第三幅":"第四幅","字画名称":"字画底价"] 
print(paints_three) 
print("---------------------------------------------------") 
paints_four=goods_in.loc[["第三幅","第四幅"],["字画名称","字画底价"]] 
print(paints_four)

  1. DataFrame的筛选
from pandas import DataFrame 
import numpy as np


#使用dict 构建DataFrame 
paints={"字画名称":["旭日东升","富水长流","招财进宝","鸿运当头"], 
"字画底价":[2860,498,1068,598], 
"字画拍卖加价":[1000,2000,500,1500]} 
goods_in=DataFrame(paints,index=["第一副","第二幅","第三幅","第四幅"])#添加索引

#可以通过这种方式进行筛选
paint_cheaper=goods_in.loc[goods_in["字画底价"]<1000]
print(paint_cheaper)

paint_expensive=goods_in.loc[(600< goods_in["字画拍卖加价"]) & (goods_in["字画拍卖加价"]<2000)]
print(paint_expensive)
  1. DataFrame的多级索引
from pandas import DataFrame

#多级索引
paints={"字画名称":["旭日东升","富水长流","招财进宝","鸿运当头"],
"字画底价":[2860,498,1068,598],
"字画拍卖加价":[1000,2000,500,1500]}
#这里的索引是多级索引意思是:
#旭日东升,富水长流属于第一拍卖现场,旭日东升为第一副,富水长流为第二幅
#招财进宝,鸿运当头属于第二拍卖现场,招财进宝为第一副,
#鸿运当头为第二幅
goods_in=DataFrame(paints,index=[["第一拍卖现场","第一拍卖现场","第二拍卖现场","第二拍卖现场"],["第一幅","第二幅","第一幅","第二幅"]])

#利用loc方法进行访问
goods_in_second=goods_in.loc["第二拍卖现场"]
print(goods_in_second)
print("--------------------------------------")
goods_in_second_one=goods_in.loc["第二拍卖现场","第一幅"]
print(goods_in_second_one)
  1. index索引的更新
from pandas import DataFrame
paints={
    "车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":[38.78,9.80,39.48],"最高报价":[49.80,14.10,58.78]}
goods_in=DataFrame(paints,index=["第一辆车","第二辆车","第三辆车"])
print(goods_in)
#更新索引
other_goods=goods_in.reindex(["第三辆车","第二辆车","第一辆车"])
print(other_goods)
#输出索引
other_goods_index=goods_in.index
print(other_goods_index)

同时,reindex也可以将列索引进行更新

from pandas import DataFrame
paints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":
[38.78,9.80,39.48],"最
高报价":[49.80,14.10,58.78]}
goods_in=DataFrame(paints,index=[1,2,3])
print(goods_in)
other_goods=goods_in.reindex(columns=["车名","最高报价","最低报价","标
配价"])
print(other_goods)

代码中使用drop()方法时传入行索引值2可实现删除。上述代码的 运行结果如图3.30所示

from pandas import DataFrame
paints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价": [38.78,9.80,39.48],
        "最 高报价":[49.80,14.10,58.78]} 
goods_in=DataFrame(paints,index=[1,2,3]) 
#一种是通过drop索引来进行删除,也可以通过使用 ["哈佛H6"] 来删除
goods_in=goods_in.drop(2) 
print(goods_in)  

PS:

如果轴索引出现了重复值的情况(这在前面的案例中是没有涉及 的,但在公司工作中可能会遇到),通过索引的is_unique属性可以知 道轴索引的值是否是唯一的。

  1. DataFrame的相加

假定有两家幼儿园商议合并成一家幼儿园,就需要对一些数据进 行合并操作,代码如下。 两家幼儿园DataFrame 数据的加法合并

from pandas import DataFrame
kindergarten1={"小朋友数目":{"1班":32,"2班":20},"小朋友睡床":{"1班":40,"2班":30},"上课教室":{"1班":3,"2班":2}} 
kindergarten2={"小朋友数目":{"1班":10,"2班":21,"3班":15},"小朋友睡床": {"1班":11,"2班":21,"3班":16},"上课教室":{"1班":1,"2班":2,"3班":2}} 
kindergarten_dataframe1=DataFrame(kindergarten1) 
kindergarten_dataframe2=DataFrame(kindergarten2) 
kindergarten_all=kindergarten_dataframe1+kindergarten_dataframe2 
print(kindergarten_all)

代码中定义了两家幼儿园的DataFrame数据结构,合并操作实现了 两家幼儿园DataFrame数据的相加。

上述代码的运行结果如图3.32所 示。

图3.32 两家幼儿园DataFrame 数据的加法合并的代码运行结果 从运行结果上看,相加后将会返回一个新的DataFrame,其索引和 列为原来两个DataFrame的并集。需要特别说明的是,一家幼儿园有索 引项“3班”,另一家幼儿园没有索引项“3班”,在进行相加运算时 数据就会显示NaN。

实际上,我们往往希望当一个对象中的某个轴标签 在另一个对象中找不到时,可以通过填充一个特殊值来处理。

这时, 可以用add()方法实现相加运算,add()方法可以传入fill_value参 数,这个fill_value参数可实现在另一个对象中找不到索引项时填充 一个值,代码如下。

使用add()方法实现两家幼儿园DataFrame 数据的合并

代码中使用add()方法实现了两家幼儿园DataFrame数据的相加。 add()方法中传入了fill_value参数,当一个对象没有某个索引项时, 这里填充的数据为0。上述代码的运行结果如图3.33所示。

from pandas import DataFrame 
kindergarten1={"小朋友数目":{"1班":32,"2班":20},"小朋友睡床":{"1班":40,"2班":30},"上课教室":{"1班":3,"2班":2}}
kindergarten2={"小朋友数目":{"1班":10,"2班":21,"3班":15},"小朋友睡床": {"1班":11,"2班":21,"3班":16},"上课教室":{"1班":1,"2班":2,"3班":2}} 
kindergarten_dataframe1=DataFrame(kindergarten1) 
kindergarten_dataframe2=DataFrame(kindergarten2) 
#这个就是填充用的
kindergarten_all=kindergarten_dataframe1.add(kindergarten_dataframe2,fill_value=0) 
print(kindergarten_all)

from pandas import DataFrame,Series
kindergarten1={"小朋友数目":[32,20],"小朋友睡床":[40,30],"上课教室":
[3,2]}
kindergarten2={"小朋友数目":16,"小朋友睡床":19,"上课教室":2}
#这个16和与数组中的数据都 相加过 这种称为广播
#如果想要对单独的数据进行调整,需要你进行切片 loc
kindergarten_dataframe1=DataFrame(kindergarten1)
kindergarten_series1=Series(kindergarten2)
kindergarten_all=kindergarten_dataframe1+kindergarten_series1
print(kindergarten_all)

  1. DataFrame求和

这里使用sum进行求和,默认的axios=0,横向进行“+”操作,对于字符串来说就是进行了凭借操作,对于数据就是相加

from pandas import DataFrame
paints={"地址":["北京市","大兴区","黄村镇","卫星城"],
"购物车内每件商品价格":[38.78,9.80,39.48,39.48]}
goods_in=DataFrame(paints)
goods_sum=goods_in.sum()
print(goods_sum)

当然,也可以改成纵向的,将每一列的数据进行相加得到最终的结果。

from pandas import DataFrame
import numpy as np
paints={
"苹果":[5,4,3,np.nan],
"橘子":[4,2,1,2],
"石榴":[3,1,1,np.nan]}
goods_in=DataFrame(paints)
goods_sum=goods_in.sum(axis=1)
print(goods_sum)

为了方便,可以使用comsum来进行选择性求和

from pandas import DataFrame
import numpy as np
paints={"会员名":["小王","小李","小张","小凤"],
"苹果":[5,4,3,np.nan],
"橘子":[4,2,1,2],
"石榴":[3,1,1,np.nan]}
goods_in=DataFrame(paints)
goods_sum=goods_in[["苹果","橘子","石榴"]].cumsum()
print(goods_sum)

同时,如果使用describe() 方法,会直接输出相应的统计结果。 describe()方法会从count(个数)、mean(均 值)、std(标准差)、min(最小值)、max(最大值)、25%、50%、 75%这几个统计项去描述DataFrame数据。不过,describe()一般都是 用来统计数值型数据的。

  1. DataFrame 的空值判断以及数据容忍

from pandas import DataFrame 
import numpy 
paints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价": [numpy.nan,9.80,numpy. nan],
"最高报价":[49.80,23.10,58.78]} 
goods_in=DataFrame(paints,index=[1,2,3])
goods_in_isnull=goods_in[goods_in["最低报价"].isnull()]
print(goods_in_isnull)  

dropna:

from pandas import DataFrame
import numpy
paints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":
[numpy.nan,9.80,numpy.
nan],"最高报价":[49.80,23.10,58.78]}
goods_in=DataFrame(paints,index=[1,2,3])
goods_in_nonull=goods_in.dropna(axis=1)
print(goods_in_nonull)

fillna:

from pandas import DataFrame
import numpy
paints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":
[numpy.nan,9.80,numpy.
nan],"最高报价":[49.80,23.10,58.78]}
goods_in=DataFrame(paints,index=[1,2,3])
goods_in_nonull=goods_in.fillna(10)
print(goods_in_nonull)
from pandas import DataFrame
import numpy
paints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":
[numpy.nan,9.80,numpy.
nan],"最高报价":[49.80,23.10,numpy.nan]}
goods_in=DataFrame(paints,index=[1,2,3])
goods_in_fill=goods_in.fillna({"最低报价":10,"最高报价":20})
print(goods_in_fill)

利用fillna()方法填充缺失数据可以看作值替换的一种特殊情 况。而replace()则提供了一种实现该功能的更简单、更灵活的方式, 代码如下。

from pandas import DataFrame
import numpy as np
paints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC","奥迪Q5L","哈弗H6"],
"最低报价":[9.80,14.35,15.42,9.80,np.nan],
"最高报价":[49.80,23.45,np.nan,49.80,23.10]}
goods_in=DataFrame(paints)
goods_in_replace=goods_in.replace(np.nan,20.50)
print(goods_in_replace)

也可以使用字典替换

from pandas import DataFrame
import numpy as np
paints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC","奥迪Q5L","哈弗H6"],
"最低报价":[9.80,14.35,15.42,0,np.nan],
"最高报价":[0,23.45,np.nan,49.80,23.10]}
goods_in=DataFrame(paints)
goods_in_replace=goods_in.replace({np.nan:20.50,0:25.47})
print(goods_in_replace)
  1. DataFrame数据重复

DataFrame数据中常常会出现一些重复行,这些重复的数据,在使 用前也需要进行处理。DataFrame的duplicated()方法返回一个布尔型 Series,表示各行是否是重复行,代码如下。

from pandas import DataFrame
import numpy
paints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC","奥迪Q5L","哈弗H6"],
"最低报价":[9.80,14.35,15.42,9.80,14.35],
"最高报价":[49.80,23.10,60.45,49.80,23.10]}
goods_in=DataFrame(paints)
goods_in_duplicated=goods_in.duplicated()
print(goods_in_duplicated)

还有一个与此相关的drop_duplicates()方法,它用于返回一个删 除了重复行的DataFrame,也就是实现了删除重复项

  1. DataFrame的排序
from pandas import DataFrame
#sort 排序
paints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":
[38.78,9.80,39.48],"最高报价":[49.80,14.10,58.78]}
goods_in=DataFrame(paints,index=["L车","K车","D车"])

#1.根据索引排序,这个是利用字符串比较,默认是升序
goods_in=goods_in.sort_index() #将 ascending=False 带入就可以改变为降序了
print(goods_in)
#2.根据数值排序
goods_in=goods_in.sort_values(by="最低报价")
print(goods_in)

第二部分:数据的读取与存储

  1. read_csv()和read_table()

Pandas提供了一些用于将表格型数据读取为DataFrame对象的方 法,其中read_csv()和read_table()使用比较频繁。

假定文件中是几个小朋友携带的各种玩具的数目。由于该文件以 逗号分隔,所以我们可以使用read_csv()将其读入为DataFrame,代码 如下。

import pandas as pd
datas=pd.read_csv("toys.csv")
#这里默认的分隔符是',',可以使用sep进行更改
#我们可以看到这里会将第一行读取为index
#index 为“小明”,“小钱”,“小月”,“小开心”
#也可以通过使用 names=["","","",""]进行手动更改
print(datas.columns)
print("----------------------------")
print(datas)

  1. DataFrame数据写出到csv
from pandas import DataFrame
paints={"字画名称":["旭日东升","富水长流","招财进宝","鸿运当头"],
"字画底价":[2860,498,1068,598],
"字画拍卖加价":[1000,2000,500,1500]}
goods_in=DataFrame(paints,index=["第一幅","第二幅","第三幅","第四幅"])
goods_in.to_csv("paint.csv")

  1. DataFrame的合并

Pandas对象中的数据可以通过一些内置的方式进行合并,主要有 以下两种方法。

第一种:merge()可根据一个或多个键将不同DataFrame中的行连 接起来。类似于数据库中的关系表之间的连接。

import pandas as pd
from pandas import DataFrame
login={"会员Id":[110,111,112,113],
"会员名称":["刘一","赵二","薛三","陆四"],
"会员密码":["admin","123456","000000","888888"]}
info={"会员Id":[110,111,112,113],
"会员地址":["北京朝阳","北京丰台","北京大兴","河北廊坊"],
"会员会费":[250,360,470,550]}
login_member=DataFrame(login,index=[1,2,3,4])
member_info=DataFrame(info,index=[1,2,3,4])
#这里通过会员ID进行连接,将会员ID相同的部分进行凭借,采用了数据库的风格
member=pd.merge(login_member,member_info,on="会员Id")
print(member)
import pandas as pd
from pandas import DataFrame
login={"会员Number号码":[110,111,112,113],
"会员名称":["刘一","赵二","薛三","陆四"],
"会员密码":["admin","123456","000000","888888"]}
info={"会员Card":[110,111,112,113],
"会员地址":["北京朝阳","北京丰台","北京大兴","河北廊坊"],
"会员会费":[250,360,470,550]}
login_member=DataFrame(login,index=[1,2,3,4])
member_info=DataFrame(info,index=[1,2,3,4])
#当连接的列名不一致的时候,可以使用下面这样的方式进行左右等值连接
#不过这样的话,我们可以看到连接的部分其实是有一点重复的
member=pd.merge(login_member,member_info,left_on="会员Number号码",right_on="会员Card")
print(member)

import pandas as pd
from pandas import DataFrame
login={"会员Number号码":[110,111,112,114],
"会员名称":["刘一","赵二","薛三","陆四"],
"会员密码":["admin","123456","000000","888888"]}
info={"会员Card":[110,111,112,113],
"会员地址":["北京朝阳","北京丰台","北京大兴","河北廊坊"],
"会员会费":[250,360,470,550]}
login_member=DataFrame(login,index=[1,2,3,4])
member_info=DataFrame(info,index=[1,2,3,4])
#how='outer' 采用外连接 一般默认的是采用内连接的方式
member=pd.merge(login_member,member_info,left_on="会员Number号码",right_on="会员Card",how="outer")
print(member)

对于DataFrame 中的连接键位于其索引中这种情况,可以传入 left_index=True或right_index=True(或两个都传)以说明索引应该 被用作连接键,代码如下。

import pandas as pd
from pandas import DataFrame
login={"会员名称":["刘一","赵二","薛三","陆四"],
"会员密码":["admin","123456","000000","888888"]}
info={"会员地址":["北京朝阳","北京丰台","北京大兴","河北廊坊"],
"会员会费":[250,360,470,550]}
login_member=DataFrame(login,index=[1,2,3,4])
member_info=DataFrame(info,index=[1,2,3,4])
member=pd.merge(login_member,member_info,left_index=True,right_index=True)
print(member)

这种方式很类似直接连接

从结果上看,两个DataFrame都通过索引的1、2、3、4连接在了一 起。如果两个DataFrame还有不同的数据,可以通过how="outer"做外 连接。DataFrame还有一个join()实例方法,它能更为方便地实现按索 引合并。它还可用于合并多个带有相同或相似索引的DataFrame 对 象,而不管它们之间有没有重叠的列,代码如下。

第二种:concat()可沿着一条轴将多个对象堆叠到一起。类似于 数据库中添加数据记录

#这里可以进行纵向拼接
import pandas as pd
from pandas import Series
member1=Series([1,350],index=["会员级别","会员最低消费"])
member2=Series([2,100,10],index=["会员购买产品次数","会员卡最低存额","会员活动次数"])
member3=Series([2],index=["会员推荐人数"])
member=pd.concat([member1,member2,member3])
print(member)
  1. 数据透视表

我们可以像excel一样,使用数据透视表

#数据透视表的制作
import pandas as pd
import numpy as np
from pandas import DataFrame
member=DataFrame({"会员级别":[1,2,5,3,1,1,2,5,2,3,1,1,2,3,5,4],
"会员消费情况":
[100,500,2500,1427,90,90,490,2498,486,1315,89,97,490,1489,2389,1900
],
"会员参与活动数目":[1,3,10,5,3,3,6,8,4,2,3,3,6,5,4,1]})
member_table=pd.pivot_table(member,index=["会员级别"],aggfunc=
[np.sum])
print(member_table)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值