Pandas学习笔记03-数据清洗(通过索引选择数据)

最新推荐文章于 2024-04-28 15:21:37 发布

可以叫我才哥

最新推荐文章于 2024-04-28 15:21:37 发布

阅读量484

点赞数

分类专栏： Python数据分析文章标签： python 数据分析索引

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dxawdc/article/details/106871266

版权

Python数据分析专栏收录该内容

14 篇文章 3 订阅

订阅专栏

今天我们就在jupyterlab里进行操作演示，本次推文内容主要以截图为主了。
有兴趣的可以公众号回复 “索引” 获取演示原数据及 ipynb文件。
数据清洗中，我们经常需要从原始数据中通行列索引规则选择需要用于后续处理分析的数据，这便是本次的主要内容。
数据清洗(通过索引选择数据)

数据清洗(通过索引选择数据)

1.索引设置

我们在使用pandas读取文件数据时，可以设定初始的索引。
这里我用之前爬取过的拉勾网产品经理岗位数据进行演示如下：
读取数据时指定索引

1.1.reindex

reindex方法可以重新进行索引排序，如果某个索引值之前不存在则会引入缺失值。
reindex重新进行索引排序

1.2.set_index

set_index就是将某列设置为索引
set_index设置索引列

1.3.reset_index

reset_index就是重置索引(变为默认的索引 0到en()-1)，比如可以把上面set_index设置的索引取消，，经常用在对数据进行处理（分组或透视处理）后
reset_index重置索引

1.4.rename

rename可以将行列索引标签名进行替换，用字典的形式
在这里插入图片描述

2.索引选择

2.1. iloc 整数标签

df数据

2.1.1. 行索引

行索引

2.1.2. 列索引

列索引

2.1.3. 混合索引

混合索引

2.2. loc 轴标签

2.2.1.行索引

行索引

2.2.2.列索引

列索引

2.2.3.混合索引

混合索引

2.2.4.函数式索引

函数式索引

2.3. []方法

**df[val]**主要是选取某列或某些列序列，当然我们也可以通过切片形式选取行（这里是整数索引切片形式）

2.3.1.行索引

行索引

2.3.2.列索引

列索引

2.3.3.混合索引与函数式索引

混合索引与函数式索引

2.3.4.布尔索引

布尔索引可以理解为条件判断，根据条件判断选择满足的数据，是我们在数据清洗中最常见的手段之一。
布尔符号：’&’,’|’,’~’：分别代表和and，或or，取反not
单条件、且与或

取反、contains与isin

3.删除重复数据

duplicated方法返回是否重复的布尔列表
查看原始数据重复值情况 drop_duplicates方法删除重复数据，保留一条（可选第一条或最后一条）
keep = ‘last’ 保留最后一条
keep = ‘first’ 保留第一条
删除重复值

4.思考题

采取至少2种以上获取偶数行的方式

有兴趣的可以公众号‘可以叫我才哥’回复 “索引” 获取演示原数据及 ipynb文件

可以叫我才哥

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Pandas学习笔记03-数据清洗(通过索引选择数据)

文章目录1.索引设置1.1.reindex1.2.set_index1.3.reset_index1.4.rename2.索引选择2.1. iloc 整数标签2.1.1. 行索引2.1.2. 列索引2.1.3. 混合索引2.2. loc 轴标签2.2.1.行索引2.2.2.列索引2.2.3.混合索引2.2.4.函数式索引2.3. []方法2.3.1.行索引2.3.2.列索引2.3.3.混合索引与函数式索引2.3.4.布尔索引3.删除重复数据4.思考题今天我们就在jupyterlab里进行操作演示，本次推文
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。