2024年最全python pandas库统计分析基础必备知识汇总，2024最新Python大厂面试真题大全

最新推荐文章于 2024-05-22 08:35:11 发布

m0_60607971

最新推荐文章于 2024-05-22 08:35:11 发布

阅读量708

点赞数 9

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/m0_60607971/article/details/138648517

版权

程序员专栏收录该内容

185 篇文章 0 订阅

订阅专栏

文末有福利领取哦~

👉一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

👉二、Python必备开发工具

👉三、Python视频合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

👉 四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（文末领读者福利）

👉五、Python练习题

检查学习结果。

👉六、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

👉因篇幅有限，仅展示部分资料，这份完整版的Python全套学习资料已经上传

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

在这里插入图片描述

2.3.4.2 iloc位置索引

print(df)

print(“=======================”)

print(df.iloc[:, [1, 3]])

在这里插入图片描述

print(df)

print(“=======================”)

print(df.iloc[:, :2])

在这里插入图片描述

print(df)

print(“=======================”)

print(df.iloc[[2, 5], [1, 3]])

在这里插入图片描述

2.3.5 按指定条件获取（布尔索引）

使用loc还可以进行指定条件的筛选获取

执行以下代码

print(df)

print(“=======================”)

print(df[‘AAA’] > 110)

print(type(df[‘AAA’] > 110))

如图，输出了一个value为bool类型数据的Series对象。

在这里插入图片描述

可以使用该种形式的Series对DataFrame进行筛选

print(df)

print(“=======================”)

print(df.loc[df[‘AAA’] > 110])

在这里插入图片描述

也可以传入多个条件进行筛选。每个条件需要使用括号()括起来。

以获取’AAA’大于110且’CCC’大于115的为例：

print(df)

print(“=======================”)

print(df.loc[(df[‘AAA’] > 110) & (df[‘CCC’] > 115)])

在这里插入图片描述

2.4 增加数据

2.4.1 按列增加数据

2.4.1.1 直接添加

print(df)

print(“=======================”)

df[‘EEE’] = [140, 133, 145, 125, 126, 133]

print(df)

在这里插入图片描述

也可以使用loc添加

添加一整列时行索引必须是所有行，列索引是一个新的列名。添加的数据个数必须等于总行数。插入的数据在最后一列。

print(df)

print(“=======================”)

df.loc[:, ‘FFF’] = [84, 99, 76, 50, 20, 66]

print(df)

在这里插入图片描述

如果行索引是部分行，且列索引已存在于原数据中，则效果为修改局部数据。

print(df)

print(“=======================”)

df.loc[1:4, ‘CCC’] = [99, 76, 50, 20]

print(df)

在这里插入图片描述

使用insert()方法添加

在第1列后添加一个名为’SSS’的列，数据为s1中的数据。

print(df)

print(“=======================”)

s1 = [99, 89, 95, 84, 110, 104]

df.insert(1, ‘SSS’, s1)

print(df)

在这里插入图片描述

2.4.2 按行增加数据

2.4.2.1 增加一行

print(df)

print(“=======================”)

df.loc[‘100’] = [111, 132, 99, 123]

print(df)

在这里插入图片描述

2.4.2.2 增加多行数据

将新数据创建一个格式一致的、新的DataFrame，然后使用append方法追加在原数据后边。

print(df)

print(“=======================”)

df_insert = pd.DataFrame({‘AAA’: [102, 124, 133, 120, 115, 121],

‘BBB’: [110, 125, 140, 111, 117, 126],

‘CCC’: [112, 118, 122, 114, 136, 125],

‘DDD’: ‘XYZ’}

, index=[10, 20, 30, 40, 50, 60])

df1 = df.append(df_insert)

print(df)

print(“============================”)

print(df1)

在这里插入图片描述

如图，使用append方法对一个DataFrame在后边追加一个DataFrame，不会改变原DataFrame，这一点不同于列表追加元素。

2.5 修改列名&索引

2.5.1修改列名

2.5.1.1 通过DataFrame的columns属性

print(df)

print(“=======================”)

df.columns = [‘A1’, ‘B2’, ‘C3’, ‘V4’]

print(df)

在这里插入图片描述

2.5.1.2 通过DataFrame的rename()方法

print(df)

print(“=======================”)

df.rename(columns={‘AAA’: ‘A1’, ‘BBB’: ‘B2’, ‘CCC’: ‘C3’}, inplace=True)

print(df)

inplace参数表示是否修改原DataFrame，默认False不修改。

在这里插入图片描述

2.5.2 修改索引(index)

2.5.2.1 通过index属性

print(df)

print(“=======================”)

df.index = list(‘abcdef’)

print(df)

在这里插入图片描述

2.5.2.2通过rename方法

通过rename方法也可以实现对索引的修改。

参数axis默认为0，表示对index操作，（所以这里不设置axis也可）除非像上边的例子中传入有columns参数则表示对列操作。

print(df)

print(“=======================”)

df.rename({1: ‘a1’, 2: ‘b2’, 3: ‘c3’, 4: ‘d4’}, axis=0, inplace=True)

print(df)

在这里插入图片描述

2.6 修改数据

2.6.1 使用loc

修改整行数据

print(df)

print(“=======================”)

df.loc[3] = [111, 115, 109, 120]

print(df)

print(“============================”)

df.loc[3] = df.loc[3]+10

print(df)

在这里插入图片描述

修改整列数据

print(df)

print(“=======================”)

df.loc[:, ‘CCC’] = [116, 104, 115, 120, 125, 124]

print(df)

在这里插入图片描述

修改指定某一数据

print(df)

print(“=======================”)

df.loc[3, ‘BBB’] = 150

print(df)

在这里插入图片描述

2.6.2 使用iloc

修改整行数据

print(df)

print(“=======================”)

df.iloc[0, :] = [112, 120, 119, 126]

print(df)

在这里插入图片描述

修改整列数据

print(df)

print(“=======================”)

df.iloc[:, 0] = [111, 118, 114, 102, 125, 130]

print(df)

在这里插入图片描述

修改指定某一数据

print(df)

print(“=======================”)

df.iloc[0, 0] = 150

print(df)

在这里插入图片描述

2.7 删除数据

2.7.1 删除某列

print(df)

print(“=======================”)

df.drop([‘AAA’], axis=1, inplace=True)

print(df)

在这里插入图片描述

print(df)

print(“=======================”)

df.drop(columns=‘AAA’, inplace=True)

print(df)

在这里插入图片描述

删除标签为’BBB’的，axis=1表示对列操作

print(df)

print(“=======================”)

df.drop(labels=‘BBB’, axis=1, inplace=True)

print(df)

在这里插入图片描述

2.7.2 删除某行

删除标签为2,4的行，axis默认为0，默认对行操作。

print(df)

print(“=======================”)

df.drop([2, 4], inplace=True)

print(df)

在这里插入图片描述

print(df)

print(“=======================”)

df.drop(index=3, inplace=True)

print(df)

在这里插入图片描述

删除标签为4的，axis=0表示对行操作。

print(df)

print(“=======================”)

df.drop(labels=4, axis=0, inplace=True)

print(df)

在这里插入图片描述

2.7.3删除特定条件的行

删除字段’AAA’为120，101或114的行。

print(df)

print(“=======================”)

df.drop(index=df[df[‘AAA’].isin([120, 101, 114])].index, inplace=True)

print(df)

在这里插入图片描述

删除"BBB"字段小于120的行

print(df)

print(“=======================”)

df.drop(index=df[df[‘BBB’] < 120].index, inplace=True)

print(df)

在这里插入图片描述

2.8 打印DataFrame的简短摘要

print(df)

print(“=======================”)

print(df.info())

在这里插入图片描述

2.9 处理缺失值与重复值

2.9.1处理缺失值

2.9.1.1 准备缺失值

准备两个缺失值

import numpy as np

df.iloc[0, 0] = np.NaN

df.iloc[2, 2] = np.NaN

print(df)

在这里插入图片描述

2.9.1.2 删除该缺失值所在行

print(df)

print(“====================”)

不修改原df的写法

df1 = df.dropna()

print(df1)

修改原df的写法

df.dropna(inplace=True)

print(df)

在这里插入图片描述

2.9.1.3获取某字段没有缺失值的行

print(df)

print(“=============================”)

df2 = df[df[‘AAA’].notnull()]

print(df2)

在这里插入图片描述

2.9.1.4 填充缺失值

以将缺失值填充为0为例

2.9.1.4.1 填充所有缺失值

print(df)

print(“=============================”)

df3 = df.fillna(0)

print(df3)

在这里插入图片描述

2.9.1.4.2 填充局部缺失值

print(df)

print(“=============================”)

df[‘AAA’] = df[‘AAA’].fillna(0)

print(df)

在这里插入图片描述

2.9.2 处理重复值

2.9.2.1准备数据

import pandas as pd

df = pd.DataFrame({

‘AAA’: [120, 101, 106, 101, 101, 122],

‘BBB’: [115, 100, 110, 100, 100, 120],

‘CCC’: [109, 112, 125, 112, 112, 115],

‘DDD’: ‘ABCDEFG’

}, index=[1, 2, 3, 4, 5, 6])

print(df)

在这里插入图片描述

2.9.2.2 判断重复值

2.9.2.2.1 判断整行数据是否重复

将一行完全相同的判断为重复值，第一次出现的行不会被判定为重复值，第二次及以上次数重复出现的才会。

print(df)

print(“=============================”)

print(df.duplicated())

在这里插入图片描述

2.9.2.2.2 判断某字段数据是否重复

以字段"AAA"为例。

print(df)

print(“=============================”)

print(df[‘AAA’].duplicated())

或者

print(df.duplicated([‘AAA’]))

print(“=============================”)

print(df.loc[df[‘AAA’].duplicated()])

在这里插入图片描述

2.9.2.3 去重

2.9.2.3.1 删除整行重复值

不更改原df

print(df)

print(“=============================”)

df1 = df.drop_duplicates()

print(df1)

在这里插入图片描述更改原df

print(df)

print(“=============================”)

df.drop_duplicates(inplace=True)

print(df)

在这里插入图片描述

2.9.2.3.2 删除某字段重复的行

print(df)

print(“=============================”)

print(df.drop_duplicates([‘AAA’]))

在这里插入图片描述

如果要保留重复行中的最后一行（默认是第一行），须将参数keep设置为’last’：

print(df)

print(“=============================”)

print(df.drop_duplicates([‘AAA’], keep=‘last’))

在这里插入图片描述

2.10设置索引

2.10.1 reindex

缺失值以0填充

from pandas import Series

s1 = Series([88, 60, 75], index=[1, 2, 3])

print(s1)

print(“========================”)

print(s1.reindex([1, 2, 3, 4, 5]))

print(“========================”)

重新设置索引,NaN以0填充

print(s1.reindex([1, 2, 3, 4, 5],fill_value=0))

在这里插入图片描述

缺失值向前/向后填充

from pandas import Series

从pandas引入Series对象，就可以直接使用Series对象了，如Series([88,60,75],index=[1,2,3])

s1 = Series([88, 60, 75], index=[1, 2, 3])

print(s1)

print(“========================”)

print(s1.reindex([1, 2, 3, 4, 5], method=‘ffill’)) # 向前填充

print(“========================”)

print(s1.reindex([1, 2, 3, 4, 5], method=‘bfill’)) # 向后填充

在这里插入图片描述

重新设置行索引、列索引和行列索引

import pandas as pd

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130]]

index = [‘001’, ‘003’, ‘005’]

columns = [‘语文’, ‘数学’, ‘英语’]

df = pd.DataFrame(data=data, index=index, columns=columns)

print(df)

print(“===============================================”)

通过reindex()方法重新设置行索引、列索引和行列索引

print(df.reindex([‘001’, ‘002’, ‘003’, ‘004’, ‘005’]))

print(“===============================================”)

print(df.reindex(columns=[‘语文’, ‘物理’, ‘数学’, ‘英语’]))

print(“===============================================”)

print(df.reindex(index=[‘001’, ‘002’, ‘003’, ‘004’, ‘005’], columns=[‘语文’, ‘物理’, ‘数学’, ‘英语’]))

在这里插入图片描述

2.10.2 set_index

2.10.2.1 设置某列为index

设置"AAA"为index

import pandas as pd

df = pd.DataFrame({

‘AAA’: [120, 101, 106, 101, 101, 120],

‘BBB’: [115, 100, 110, 100, 100, 120],

‘CCC’: [109, 112, 125, 112, 112, 115],

‘DDD’: ‘ABCDEFG’

}, index=[1, 2, 3, 4, 5, 6])

print(df)

print(“=============================”)

设置“买家会员名”为行索引

df = df.set_index([‘AAA’])

print(df)

在这里插入图片描述

2.10.2.2 设置drop=True

设置drop=True，是把原来的索引index列去掉，重置index。不设置该参数则原index会作为一列保留。

import pandas as pd

df = pd.DataFrame({

‘AAA’: [120, 101, 106, 101, 101, 120],

‘BBB’: [115, 100, 110, 100, 100, 120],

‘CCC’: [109, 112, 125, 112, 112, 115],

‘DDD’: ‘ABCDEFG’

}, index=[101, 203, 304, 409, 511, 625])

print(df)

print(“=============================”)

df1 = df.dropna().reset_index()

print(df1)

print(“=============================”)

df2 = df.reset_index(drop=True)

print(df2)

在这里插入图片描述

2.11排序

2.11.1 sort_values()单列排序

ascending默认为True，表示升序。设置为False表示降序。

sort_values()也可以通过设定inplace参数来选择是否修改原df。

import pandas as pd

df = pd.DataFrame({

‘AAA’: [120, 101, 106, 101, 101, 120],

‘BBB’: [115, 100, 110, 100, 100, 120],

‘CCC’: [109, 112, 125, 112, 112, 115],

‘DDD’: ‘ABCDEFG’

}, index=[1, 2, 3, 4, 5, 6])

print(df)

print(“=============================”)

df1 = df.sort_values(by=‘BBB’, ascending=False)

print(df1)

在这里插入图片描述

2.11.2 sort_values()多列排序

多列排序按照给定列的先后顺序进行排序。

import pandas as pd

df = pd.DataFrame({

‘AAA’: [120, 101, 106, 101, 101, 120],

‘BBB’: [115, 100, 110, 100, 100, 120],

‘CCC’: [109, 112, 125, 112, 112, 115],

‘DDD’: ‘ABCDEFG’

}, index=[1, 2, 3, 4, 5, 6])

print(df)

print(“=============================”)

df1 = df.sort_values(by=[‘AAA’, ‘BBB’])

print(df1)

如图，先升序排列"AAA"，"AAA"值相同的用"BBB"升序排列。

在这里插入图片描述

2.11.3 group_by()对统计结果排序

import pandas as pd

df = pd.DataFrame({

‘AAA’: [120, 101, 106, 101, 101, 120, 115, 112, 117, 132],

‘BBB’: [115, 100, 110, 100, 100, 120, 113, 114, 130, 111],

‘CCC’: [109, 112, 125, 112, 112, 115, 120, 122, 110, 119],

‘DDD’: [‘A’, ‘B’, ‘A’, ‘C’, ‘B’, ‘C’, ‘B’, ‘A’, ‘C’, ‘A’]

}, index=[1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

print(df)

print(“=============================”)

df1 = df.groupby([“DDD”])[“AAA”].sum().reset_index()

df2 = df1.sort_values(by=‘AAA’, ascending=False)

print(df1)

print(“=============================”)

print(df2)

在这里插入图片描述

2.11.4横向排序 axis=1

以索引的标签为1，升序，为例：

import pandas as pd

df = pd.DataFrame({

‘AAA’: [120, 101, 106, 101, 101, 120, 115, 112, 117, 132],

‘BBB’: [115, 100, 110, 100, 100, 120, 113, 114, 130, 111],

‘CCC’: [109, 112, 125, 112, 112, 115, 120, 122, 110, 119]

}, index=[1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

print(df)

print(“=============================”)

按照索引值（标签的值）为1的行，升序排序

df1 = df.sort_values(by=1, ascending=True, axis=1)

print(df1)

在这里插入图片描述

2.11.5 排名 rank()

method参数可以取的值有"average", “first”, “max”, “min”，默认为"average"。

average表示排名时如果出现数值相等，则取平均排名，如降序排名，如果第二三四名数值大小相等，则都标记为第(2+3+4)/3=3，即第3名。
first 表示排名时如果出现数值相等，则参考在原数据的顺序进行排名
max表示排名时如果出现数值相等，则取其最大排名，如降序排名，如果第二三四名数值大小相等，则都标记为第4名。
min表示排名时如果出现数值相等，则取其最小排名，如降序排名，如果第二三四名数值大小相等，则都标记为第2名。

import pandas as pd

df = pd.DataFrame({

‘AAA’: [120, 101, 106, 101, 101, 120, 115, 112, 117, 132],

‘BBB’: [115, 100, 110, 100, 100, 120, 113, 114, 130, 111],

‘CCC’: [109, 112, 125, 112, 112, 115, 120, 122, 110, 119]

}, index=[1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

print(df)

print(“=============================”)

按“销量”列降序排序

df1 = df.sort_values(by=‘AAA’, ascending=False)

顺序排名

df1[‘AAA_order’] = df1[‘AAA’].rank(method=“first”, ascending=False)

df2 = df1[[‘AAA’, ‘AAA_order’]]

print(df2)

在这里插入图片描述

3.pandas读取文件

==================================================================================

3.1read_excel()

3.1.1准备数据

import pandas as pd

id = [‘xx1’, ‘xx2’, ‘xx3’, ‘xx4’, ‘xx5’]

df = pd.DataFrame({

‘name’: [‘aaa’, ‘bbb’, ‘ccc’, ‘ddd’, ‘eee’],

‘age’: [18, 20, 21, 22, 19],

‘gender’: [‘male’, ‘female’, ‘male’, ‘female’, ‘female’],

‘class’: [‘A’, ‘B’, ‘B’, ‘A’, ‘A’]

}, index=id)

保存为excel文件

df.to_excel(‘data.xlsx’)

3.1.2默认方式读取

read_excel()读取excel文件得到的DataFrame，

index值默认为0,1,2,3…
列名默认为excel中的第一行数据

df = pd.read_excel(‘data.xlsx’)

print(df)

在这里插入图片描述

3.1.3设置index_col参数

df1 = pd.read_excel(‘data.xlsx’, index_col=0)

print(df1)

如图，通过index_col=0，将下标为0的列作为索引进行读取。

在这里插入图片描述

3.1.4设置header参数

header可以设置列名，默认为0表示首行即列名，

如图通过 header=1，将下标为1行作为了列名（第二行）

df2 = pd.read_excel(‘data.xlsx’, header=1) # 设置第1行为列索引

print(df2)

在这里插入图片描述

当header参数为None时，表示列名为数字0,1,2,3…

df3 = pd.read_excel(‘data.xlsx’, header=None)

print(df3)

在这里插入图片描述

3.1.5设置usecols参数

通过usecols参数，传入列位置或标签列表，可以导出指定列

传入一个位置

df1 = pd.read_excel(‘data.xlsx’, usecols=[1]) # 通过指定列索引号导入第1列

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

m0_60607971

关注

9
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

2024年最全python pandas库统计分析基础必备知识汇总，2024最新Python大厂面试真题大全

文末有福利领取哦~

2.3.4.2 iloc位置索引

2.3.5 按指定条件获取（布尔索引）

2.4.1 按列增加数据

2.4.1.1 直接添加

使用insert()方法添加

2.4.2 按行增加数据

2.4.2.1 增加一行

2.4.2.2 增加多行数据

2.5.1修改列名

2.5.1.1 通过DataFrame的columns属性

2.5.1.2 通过DataFrame的rename()方法

2.5.2 修改索引(index)

2.5.2.1 通过index属性

2.5.2.2通过rename方法

2.6.1 使用loc

修改整行数据

修改整列数据

修改指定某一数据

2.6.2 使用iloc

修改整行数据

修改整列数据

修改指定某一数据

2.7.1 删除某列

2.7.2 删除某行

2.7.3删除特定条件的行

2.9.1处理缺失值

2.9.1.1 准备缺失值

准备两个缺失值

2.9.1.2 删除该缺失值所在行

不修改原df的写法

df1 = df.dropna()

print(df1)

修改原df的写法

2.9.1.3获取某字段没有缺失值 的行

2.9.1.4 填充缺失值

2.9.1.4.1 填充所有缺失值

2.9.1.4.2 填充局部缺失值

2.9.2 处理重复值

2.9.2.1准备数据

2.9.2.2 判断重复值

2.9.2.2.1 判断整行数据是否重复

2.9.2.2.2 判断某字段数据是否重复

或者

print(df.duplicated([‘AAA’]))

2.9.2.3 去重

2.9.2.3.1 删除整行重复值

2.9.2.3.2 删除某字段重复 的行

2.10.1 reindex

缺失值以0填充

重新设置索引,NaN以0填充

缺失值向前/向后填充

从pandas引入Series对象，就可以直接使用Series对象了，如Series([88,60,75],index=[1,2,3])

重新设置行索引、列索引和行列索引

通过reindex()方法重新设置行索引、列索引和行列索引

2.10.2 set_index

2.10.2.1 设置某列为index

设置“买家会员名”为行索引

2.10.2.2 设置drop=True

2.11.1 sort_values()单列排序

2.11.2 sort_values()多列排序

2.11.3 group_by()对统计结果排序

2.11.4横向排序 axis=1

按照索引值（标签的值）为1的行，升序排序

2.11.5 排名 rank()

按“销量”列降序排序

顺序排名

3.1.1准备数据

保存为excel文件

3.1.2默认方式读取

3.1.3设置index_col参数

3.1.4设置header参数

3.1.5设置usecols参数

最后

2.9.1.3获取某字段没有缺失值的行

2.9.2.3.2 删除某字段重复的行