系列文章目录
提示:仅记录个人的学习心得,欢迎交流
(占位,以后再补 ……………………)
前言
对python语言基础中记忆不牢的进行总结,希望自己能坚持下去!为了学习计算机视觉做准备!
本次介绍本书第五章的内容。最近在做图像细粒度识别,数据集标签错误,重复,导致模型识别度不是很好,所以先要清洗数据,希望能赶快掌握相关函数啊!加油!!!
一、pandas的一些基本功能
1.1 重建索引
可以使用reindex()方法,会将索引按照新给的顺序一一对应,并保持原来的映射,将原来没有的索引用引入缺失值的方式进行补全。method= ' ffill ' 可以将值进行前向填充或者' bfill ' 向后填充。若想重建列索引可以使用关键字columns=。
import pandas as pd
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
print(obj)
>>> d 4.5
b 7.2
a -5.3
c 3.6
dtype: float64
obj2 = obj.reindex(['a', 'c', 'd', 'e'])
print(obj2)
>>> a -5.3
c 3.6
d 4.5
e NaN
dtype: float64
1.2 轴向删除条目
可以使用drop()方法,默认删除行向上的数据,若想删除列向上的数据需要传递axis=1或axis='columns'。
import pandas as pd
data = [['Google',10],['Runoob',12],['Wiki',13,2022]]
df = pd.DataFrame(data,columns=['Site','Age','Year'],
index=['one','two','three'])
print(df)
>>> Site Age Year
one Google 10 NaN
two Runoob 12 NaN
three Wiki 13 2022.0
print(df.drop('one'))
>>> Site Age Year
two Runoob 12 NaN
three Wiki 13 2022.0
print(df.drop('Age',axis='columns'))
>>> Site Year
one Google NaN
two Runoob NaN
three Wiki 2022.0
例如drop()函数和一些其他函数,会修改Series和DataFrame的尺寸和形状,这些方法会直接操作原对象而不会返回新对象,若将inplace属性设置为True,它会清除原来的数据(保存drop()操作到原对象)
1.3 索引、选择与过滤
索引可以采用切片的形式,默认是对行进行切片,若要对列进行切片则要传递参数axis=1。用切片的形式对数值进行变换时,原数值会跟着改变。
特殊索引符号:loc和iloc
.loc[ : ]:可以通过补充索引,确定索要选定的范围。(包括范围选定的头和尾)
.iloc[ : ]:可以通过补充默认的整数索引,确定要选择的范围(整数索引是包括头但是不包括尾)
1.4 算术和数据对齐
pandas算术的特性:索引的并集,值的交集
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
print(s1)
>>> a 7.3
c -2.5
d 3.4
e 1.5
dtype: float64
print(s2)
>>> a -2.1
c 3.6
e -1.5
f 4.0
g 3.1
dtype: float64
print(s1 + s2)
>>> a 5.2
c 1.1
d NaN
e 0.0
f NaN
g NaN
dtype: float64
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), index=np.arange(3))
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=[4, 0, 1, 5])
print(df1)
>>> b c d
0 0.0 1.0 2.0
1 3.0 4.0 5.0
2 6.0 7.0 8.0
print(df2)
>>> b d e
4 0.0 1.0 2.0
0 3.0 4.0 5.0
1 6.0 7.0 8.0
5 9.0 10.0 11.0
print(df2 + df1)
>>> b c d e
0 3.0 NaN 6.0 NaN
1 9.0 NaN 12.0 NaN
2 NaN NaN NaN NaN
4 NaN NaN NaN NaN
5 NaN NaN NaN NaN
print(df1.add(df2,fill_value=0))
>>> b c d e
0 3.0 1.0 6.0 5.0
1 9.0 4.0 12.0 8.0
2 6.0 7.0 8.0 NaN
4 0.0 NaN 1.0 2.0
5 9.0 NaN 10.0 11.0
如果不想使用缺失值想真正的,则要使用填充值的算术方法即函数。
1.5 函数的应用和映射
NumPy中的通用函数(逐元素数组方法)对pandas对象也有效。
print(df1)
>>> b c d
0 0.0 1.0 2.0
1 3.0 4.0 5.0
2 6.0 7.0 8.0
f = lambda x: x.max() - x.min()
print(df1.apply(f))
# 如果要是对列进行操作,需要增加参数axis='columns'
>>> b 6.0
c 6.0
d 6.0
dtype: float64
补充:lambda是定义一个匿名函数的关键字,可以接受任意个参数。
若要对索引进行排序可以使用.sort_index()函数,若要对列进行排序可以让(axis=1)即可,降序排列(ascending=False)。若是根据值进行排序,则可使用sort_values()函数。所有的缺失数据都会默认排到队尾。如果是指定特定行 / 列进行排序,可以使用可选参数(by:)
如果是含有重复标签的索引轴,引用相关的索引时,会将符合要求的全部列出。如果要判定标签是否唯一可以用is_unique属性。