在特征工程中,对于数值型数据(比如年龄为25岁、31岁。。,商店某个时间段的销量为20W件等等),
通常要对这些数值型数据进行统计分析,比如求取它们的最大最小值、期望方差等,pandas库在数据分析中非常好用。
对 数值型数据进行离散化,也用到pandas的cut函数,具体操作如下代码:
# -*- coding: utf-8 -*-
"""
Created on Wed Oct 26 15:34:48 2016
@author: sirius
"""
import pandas as pd
import numpy as np
"""
数据的统计值
"""
series=pd.Series(np.random.randn(500))
series.describe(percentiles=[0.05,0.25,0.75,0.95])