python-pandas模块9-数据拆分-异常值筛选-过滤

最新推荐文章于 2023-12-08 18:36:55 发布

huskyKKK

最新推荐文章于 2023-12-08 18:36:55 发布

阅读量1.3k

点赞数

分类专栏： Python的Pandas模块文章标签： python

本文链接：https://blog.csdn.net/huskyKKK/article/details/108207909

版权

本文介绍了如何使用Pandas模块进行数据拆分，包括利用pd.cut()和pd.qcut()进行区间划分，并结合value_counts()进行数量统计。此外，还探讨了异常值的筛选和过滤方法，提供了多种处理异常值的策略，例如设置条件替换和使用applymap函数处理。

摘要由CSDN通过智能技术生成

pandas模块-数据拆分-异常值筛选-过滤

导入模块：

import numpy as np
import pandas as pd
from pandas import Series,DataFrame
from numpy import nan as NA
# matplotlib做图模块
import matplotlib.pyplot as plt
# 处理中文正常显示
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']

1.数据拆分(分割，切割)

(1)pd.cut() 根据区间，求数量。结合 value_counts()

pd.cut(
x, //被分割的对象
bins, // 分箱可以是数字也可以是list-like的分箱
right: bool = True, //默认右边闭合
labels=None, //给每个区间取个别名
retbins: bool = False, //True ,返回一个区间数组
precision: int = 3, // 默认精确到小数点后3位
include_lowest: bool = False, //分割区间默认不包含最小值，True则包含
duplicates: str = ‘raise’,
ordered: bool = True,
)

准备一个数据，如一堆年龄

bins = [18,40,60,100,801]
ages = [16,20,24,28,30,38,40,44,47,54,56,61,66,77,88,99,800]

(1.1)用value_counts

Series(ages).value_counts(bins=bins)

在这里插入图片描述
(1.2)用pd.cut（）

pd.cut(ages,bins=bins)

在这里插入图片描述
pd.cut和value_counts()结合使用，dropna=True默认不保留NaN

pd.cut(ages,bins=bins).value_counts(dropna=False)

在这里插入图片描述
right参数，默认bins区间右闭合

pd.cut(ages,bins=bins,right=False)

在这里插入图片描述
labels 参数 ,给每个区间取个别名(好处是用值统计显示更直观)

pd.cut

最低0.47元/天解锁文章

huskyKKK

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
python-pandas模块9-数据拆分-异常值筛选-过滤

pandas模块-数据拆分-异常值筛选-过滤导入模块：import numpy as npimport pandas as pdfrom pandas import Series,DataFramefrom numpy import nan as NA# matplotlib做图模块import matplotlib.pyplot as plt# 处理中文正常显示plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']1.数据拆分(分割
复制链接

扫一扫