python-pandas模块9-数据拆分-异常值筛选-过滤

pandas模块-数据拆分-异常值筛选-过滤

导入模块:

import numpy as np
import pandas as pd
from pandas import Series,DataFrame
from numpy import nan as NA
# matplotlib做图模块
import matplotlib.pyplot as plt
# 处理中文正常显示
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']

1.数据拆分(分割,切割)

(1)pd.cut() 根据区间,求数量。 结合 value_counts()

pd.cut(
x, //被分割的对象
bins, // 分箱可以是数字也可以是list-like的分箱
right: bool = True, //默认右边闭合
labels=None, //给每个区间取个别名
retbins: bool = False, //True ,返回一个区间数组
precision: int = 3, // 默认精确到小数点后3位
include_lowest: bool = False, //分割区间默认不包含最小值,True则包含
duplicates: str = ‘raise’,
ordered: bool = True,
)

准备一个数据 ,如 一堆年龄

bins = [18,40,60,100,801]
ages = [16,20,24,28,30,38,40,44,47,54,56,61,66,77,88,99,800]

(1.1)用value_counts

Series(ages).value_counts(bins=bins)

在这里插入图片描述
(1.2)用pd.cut()

pd.cut(ages,bins=bins)

在这里插入图片描述
pd.cut和value_counts()结合使用,dropna=True默认不保留NaN

pd.cut(ages,bins=bins).value_counts(dropna=False)

在这里插入图片描述
right参数,默认bins区间右闭合

pd.cut(ages,bins=bins,right=False)

在这里插入图片描述
labels 参数 ,给每个区间取个别名(好处是用值统计显示更直观)

pd.cut(ages,bins=bins,right=True ,labels
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值