python 基本数据处理

1,分箱操作
1.1 等区间分箱

pd.cut(array, num)
在python plt的画法中,plt.hist(array, bins)是默认为等距分箱的操作

1.2 等频分箱

pd.qcut(array, num)

1.3 卡方分箱
数据聚合:

去重聚合

df.groupby(['col'])['id'].unique()

python处理列数据的判断控制问题:
当判断整列的数据的时候:df['col'].isnull()
但针对单元数据来处理的时候:lambda x:np.isnna(x)

累计汇总:求和、求积,最大值、最小值问题

df.groupby(['col1'])['col2'].cumsum()

在这里插入图片描述

去除某一列

df.drop(["col1", 'col2'], 1)

数据去重:

df =df.drop_dupliactes() # 去除重复行
df[columns] = df[columns].drop_duplicates()  # 对某一列的数据进行去重

去除含有特殊符号的内容:

df[columns] = df[columns].str.strip('4')  ## 删除字段中有某个符号的内容

## 删除空格
df[columns] = df[columns].map(str.strip) ## 删除左右两边空格  lstrip删除左边空格  # rstrip删除右边空格

大小写转换

df.columns = df.columns.str.upper()
#lower() 小写转换  # title() 首字母大写 

空值情况

pd.isnull()

df.columns.notnull()
np.isnan()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值