1,分箱操作
1.1 等区间分箱
pd.cut(array, num)
在python plt的画法中,plt.hist(array, bins)是默认为等距分箱的操作
1.2 等频分箱
pd.qcut(array, num)
1.3 卡方分箱
数据聚合:
去重聚合
df.groupby(['col'])['id'].unique()
python处理列数据的判断控制问题:
当判断整列的数据的时候:df['col'].isnull()
但针对单元数据来处理的时候:lambda x:np.isnna(x)
累计汇总:求和、求积,最大值、最小值问题
df.groupby(['col1'])['col2'].cumsum()
去除某一列
df.drop(["col1", 'col2'], 1)
数据去重:
df =df.drop_dupliactes() # 去除重复行
df[columns] = df[columns].drop_duplicates() # 对某一列的数据进行去重
去除含有特殊符号的内容:
df[columns] = df[columns].str.strip('4') ## 删除字段中有某个符号的内容
## 删除空格
df[columns] = df[columns].map(str.strip) ## 删除左右两边空格 lstrip删除左边空格 # rstrip删除右边空格
大小写转换
df.columns = df.columns.str.upper()
#lower() 小写转换 # title() 首字母大写
空值情况
pd.isnull()
df.columns.notnull()
np.isnan()