数据预处理

最新推荐文章于 2024-01-05 23:31:46 发布

Kevin_1992

最新推荐文章于 2024-01-05 23:31:46 发布

阅读量979

点赞数

分类专栏：数据预处理

本文链接：https://blog.csdn.net/kevindelily/article/details/52050263

版权

数据预处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

用Cut函数分箱

有时把数值聚集在一起更有意义。例如，如果我们要为交通状况（路上的汽车数量）根据时间（分钟数据）建模。具体的分钟可能不重要，而时段如“上午”“下午”“傍晚”“夜间”“深夜”更有利于预测。如此建模更直观，也能避免过度拟合。
这里我们定义一个简单的、可复用的函数，轻松为任意变量分箱。

def binning(col, cut_points, labels=None):    
#Define min and max values:    
	minval = col.min()    
	maxval = col.max()    
	#利用最大值和最小值创建分箱点的列表    
	break_points = [minval] + cut_points + [maxval]    
	#如果没有标签，则使用默认标签0 ... (n-1)    
	if not labels:      
		labels = range(len(cut_points)+1)    
		#使用pandas的cut功能分箱    
		colBin = pd.cut(col,bins=break_points,labels=labels,include_lowest=True)    
		return colBin    
		#为年龄分箱:  
cut_points = [90,140,190]  
labels = ["low","medium","high","very high"]  
data["LoanAmount_Bin"] = binning(data["LoanAmount"], cut_points, labels)  
print pd.value_counts(data["LoanAmount_Bin"], sort=False)

Kevin_1992

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据预处理

用Cut函数分箱有时把数值聚集在一起更有意义。例如，如果我们要为交通状况（路上的汽车数量）根据时间（分钟数据）建模。具体的分钟可能不重要，而时段如“上午”“下午”“傍晚”“夜间”“深夜”更有利于预测。如此建模更直观，也能避免过度拟合。这里我们定义一个简单的、可复用的函数，轻松为任意变量分箱。def binning(col, cut_points, labels=None):
复制链接

扫一扫

专栏目录