04_02《利用python进行数据分析》第二版学习笔记

最新推荐文章于 2024-08-06 17:45:33 发布

ZHH_composer

最新推荐文章于 2024-08-06 17:45:33 发布

阅读量238

点赞数 2

分类专栏：学习笔记文章标签： python 数据分析学习

本文链接：https://blog.csdn.net/ZHH_composer/article/details/127409162

版权

学习笔记专栏收录该内容

8 篇文章 1 订阅

订阅专栏

系列文章目录

提示：仅记录个人的学习心得，欢迎交流

（占位，以后再补 ……………………）

前言

对python语言基础中记忆不牢的进行总结，希望自己能坚持下去！为了学习计算机视觉做准备！

本次介绍本书第五章的内容。最近在做图像细粒度识别，数据集标签错误，重复，导致模型识别度不是很好，所以先要清洗数据，希望能赶快掌握相关函数啊！加油！！！

一、pandas的一些基本功能

1.1 重建索引

可以使用reindex（）方法，会将索引按照新给的顺序一一对应，并保持原来的映射，将原来没有的索引用引入缺失值的方式进行补全。method= ' ffill ' 可以将值进行前向填充或者' bfill ' 向后填充。若想重建列索引可以使用关键字columns=。

import pandas as pd
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
print(obj)
>>> d    4.5
    b    7.2
    a   -5.3
    c    3.6
    dtype: float64


obj2 = obj.reindex(['a', 'c', 'd', 'e'])
print(obj2)
>>> a   -5.3
    c    3.6
    d    4.5
    e    NaN
    dtype: float64

1.2 轴向删除条目

可以使用drop()方法，默认删除行向上的数据，若想删除列向上的数据需要传递axis=1或axis='columns'。

import pandas as pd

data = [['Google',10],['Runoob',12],['Wiki',13,2022]]
df = pd.DataFrame(data,columns=['Site','Age','Year'],
                  index=['one','two','three'])
print(df)
>>>          Site  Age    Year
    one    Google   10     NaN
    two    Runoob   12     NaN
    three    Wiki   13  2022.0

print(df.drop('one'))                                       
>>>          Site  Age    Year
    two    Runoob   12     NaN
    three    Wiki   13  2022.0

print(df.drop('Age',axis='columns'))
>>>          Site    Year
    one    Google     NaN
    two    Runoob     NaN
    three    Wiki  2022.0

例如drop（）函数和一些其他函数，会修改Series和DataFrame的尺寸和形状，这些方法会直接操作原对象而不会返回新对象，若将inplace属性设置为True，它会清除原来的数据（保存drop（）操作到原对象）

1.3 索引、选择与过滤

索引可以采用切片的形式，默认是对行进行切片，若要对列进行切片则要传递参数axis=1。用切片的形式对数值进行变换时，原数值会跟着改变。

特殊索引符号：loc和iloc

.loc[ : ]：可以通过补充索引，确定索要选定的范围。(包括范围选定的头和尾）

.iloc[ : ]：可以通过补充默认的整数索引，确定要选择的范围（整数索引是包括头但是不包括尾)

1.4 算术和数据对齐

pandas算术的特性：索引的并集，值的交集

s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
print(s1)
>>> a    7.3
    c   -2.5
    d    3.4
    e    1.5
    dtype: float64

print(s2)
>>> a   -2.1
    c    3.6
    e   -1.5
    f    4.0
    g    3.1
    dtype: float64

print(s1 + s2)
>>> a    5.2
    c    1.1
    d    NaN
    e    0.0
    f    NaN
    g    NaN
    dtype: float64

df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), index=np.arange(3))
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=[4, 0, 1, 5])
print(df1)
>>>      b    c    d
    0  0.0  1.0  2.0
    1  3.0  4.0  5.0
    2  6.0  7.0  8.0

print(df2)
>>>      b     d     e
    4  0.0   1.0   2.0
    0  3.0   4.0   5.0
    1  6.0   7.0   8.0
    5  9.0  10.0  11.0

print(df2 + df1)
>>>      b   c     d   e
    0  3.0 NaN   6.0 NaN
    1  9.0 NaN  12.0 NaN
    2  NaN NaN   NaN NaN
    4  NaN NaN   NaN NaN
    5  NaN NaN   NaN NaN

print(df1.add(df2,fill_value=0))
>>>      b    c     d     e
    0  3.0  1.0   6.0   5.0
    1  9.0  4.0  12.0   8.0
    2  6.0  7.0   8.0   NaN
    4  0.0  NaN   1.0   2.0
    5  9.0  NaN  10.0  11.0

如果不想使用缺失值想真正的，则要使用填充值的算术方法即函数。

1.5 函数的应用和映射

NumPy中的通用函数（逐元素数组方法）对pandas对象也有效。

print(df1)
>>>      b    c    d
    0  0.0  1.0  2.0
    1  3.0  4.0  5.0
    2  6.0  7.0  8.0


f = lambda x: x.max() - x.min()
print(df1.apply(f))
# 如果要是对列进行操作，需要增加参数axis='columns'
>>> b    6.0
    c    6.0
    d    6.0
    dtype: float64

补充：lambda是定义一个匿名函数的关键字，可以接受任意个参数。

若要对索引进行排序可以使用.sort_index()函数，若要对列进行排序可以让（axis=1）即可，降序排列（ascending=False）。若是根据值进行排序，则可使用sort_values()函数。所有的缺失数据都会默认排到队尾。如果是指定特定行 / 列进行排序，可以使用可选参数（by：）

如果是含有重复标签的索引轴，引用相关的索引时，会将符合要求的全部列出。如果要判定标签是否唯一可以用is_unique属性。