pandas内置数据集_Pandas进行数据读取和预处理

最新推荐文章于 2024-04-04 20:07:11 发布

万俟灵儿

最新推荐文章于 2024-04-04 20:07:11 发布

阅读量420

点赞数

文章标签： pandas内置数据集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42543046/article/details/113636416

版权

本文介绍了如何利用Pandas进行数据读取，包括从MySQL和CSV文件中读取数据，接着详细阐述了数据预处理的各种操作，如变量筛选、重命名、类型转换、排序、去重和抽样，提供了丰富的示例来帮助理解。

摘要由CSDN通过智能技术生成

注：文章第二部分，pandas进行数据简单处理来自刘顺祥老师公众号：

数据分析1480(微信号：lsxxx2011)

数据框与文件读取部分

836377320123

数据读取--from MySQL，CSV文件

836377320123

通过MySQL读取

836377320123

通过csv文件读取

数据集的描述describe()

836377320123

不同的describe参数，返回不同的结果

借助pandas进行数据预处理，包括：

1、数据集变量与观测的筛选

2、变量重命名

3、数据类型的变换

4、排序

5、重复观测的删除

6、数据集的抽样

一、数据筛选

836377320123

导入iris数据

1、pandas 取数两种方法，名称索引和点取法

836377320123

名称索引和点取法

2、一个变量的观测筛选

836377320123

查看setosa种类的前10行

3、两个变量的观测筛选

836377320123

4、两个变量的观测筛选并筛选部分变量

836377320123

836377320123

iloc方法

5、变量删除

836377320123

需要注意的是，该函数默认的axis=0，表示删除行观测，如果需要删除列，就要将asix设置为1。记住，此时虽然删除了两个变量，但iris数据集本身是没有变化的，如果你需要改变iris数据集，需要设置inplace为True。

二、变量重命名,rename + 字典

836377320123

三、数据类型转化,astype函数 + 字典方法

836377320123

四、数据集的排序

836377320123

五、数据去重

duplicated函数，检查数据集是否重复，如果重复返回真

drop_duplicates函数：对数据集的重复观测进行删除，如果需要制定某些变量的重复性检查，可以往subset参数传递变量

836377320123

建立数据集

836377320123

检验数据是否重复，删除重复值

六、抽样

先来看一下sample函数的几个重要参数：

sample(n=None, frac=None, replace=False, weights=None, random_state=None)

n：指定抽样的个数

frac：指定抽样的比例

replace：指定是否有放回的抽样，默认为无放回抽样

weights：指定每个样本被抽中的概率，默认每个样本抽中的概率相等

random_state：指定抽样的随机种子，默认无固定的随机种子，即每次抽样的结果都不一样

836377320123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。