学习周记03# 基于pandas和numpy：数据清洗的常用操作

最新推荐文章于 2024-05-28 16:27:59 发布

Olivia_Lin

最新推荐文章于 2024-05-28 16:27:59 发布

阅读量302

点赞数 1

分类专栏：编程学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Olivia_Linwei/article/details/89488540

版权

这篇博客介绍了如何使用Pandas的cut函数进行数据分箱，包括不同参数的使用方式，如bins、right、labels等。还提到了数据清洗中的索引排序、矩阵拓展、数值类型列筛选等操作。此外，讨论了离散化编码，特别是one-hot编码的应用。最后，讲解了样本抽取方法和DataFrame的sample函数。

摘要由CSDN通过智能技术生成

分箱：数据离散化

pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False)

参数说明:

x :进行划分的一维数组

bins :

1)正整数x，即将x划分为多少个等间距的区间

In[1]:pd.cut(np.array([0.2,1.4,2.5,6.2,9.7,2.1]),3,retbins=True)

Out[1]: ([(0.19, 3.367], (0.19, 3.367], (0.19, 3.367], (3.367,6.533], (6.533,9.7], (0.19, 3.367]] Categories (3, interval[float64]): [(0.19,3.367] < (3.367, 6.533] < (6.533, 9.7]],array([ 0.1905 , 3.36666667, 6.53333333, 9.7 ]))

2) 序列—将x划分在指定的序列中，若不在该序列中，则是NaN

In[2]:pd.cut(np.array([0.2,1.4,2.5,6.2,9.7,2.1]),[1,2,3],retbins=True)

Out[2]: ([NaN, (1, 2], (2, 3], NaN, NaN, (2, 3]] Categories(2, interval[int64]): [(1, 2] < (2, 3]], array([1, 2, 3]))

right :是否包含右端点

labels :是否用标记来代替返回的bins

In[3]:pd.cut([1,2,3,4],4,labe

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学习周记03# 基于pandas和numpy：数据清洗的常用操作

分箱：数据离散化pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False) 参数说明: x:进行划分的一维数组 bins :1)正整数x，即将x划分为多少个等间距的区间 In[1]:pd.cut(np.array...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。